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为 什么 要 写 这 本 书 

由 于 目前 对 信息 高 时 效 性 、 可 操作 性 需求 的 不 断 增长 ,软件 系统 需要 在 更 少 的 时 间 内 处 
理 更 多 的 数据 。 随 着 可 连接 设备 的 不 断 增加 以 及 在 各 行 各 业 的 广泛 应 用 ,这 种 需求 已 经 无 
处 不 在 。 传 统 企业 的 运营 系统 被 迫 需 要 处 理 原先 只 有 在 互联 网 公司 才 会 遇 到 的 海量 数据 。 
这 种 转变 正在 不 断 改 变 传统 的 架构 和 解决 方案 ,将 在 线 事 务 处 理 和 离线 分 析 分 阳 开 。 与 此 
同时 ,人 们 正在 重新 思考 从 数据 中 提取 信息 的 意义 和 价值 。 计 算 系 统 的 框架 和 基础 设施 也 
在 逐步 进化 ,以 适应 这 种 新 场景 。 

具体 来 说 ,数据 的 生成 可 以 看 作 是 一 连 串 发 生 的 离散 事件 ,这 些 事件 会 伴随 着 不 同 的 数 
据 流 、 操 作 和 分 析 , 最 后 交 由 一 个 通用 的 实时 计算 处 理 系 统 进行 处 理 。 一 个 成 熟 的 实时 计算 
处 理 框架 主要 包括 四 个 模块 : 数据 获取 模块 ,数据 传输 模块 数据 存储 模块 和 数据 处 理 模块 。 

作为 现在 流行 的 实时 计算 处 理 框架 ,Storm 提供 了 可 容错 分 布 式 计算 所 需 的 基本 原 语 
和 保障 机 制 ,可 以 满足 大 容量 的 关键 业务 应 用 的 需求 。 它 不 但 是 一 套 技 术 的 整合 ,也 是 一 种 
数据 流 和 控制 的 机 制 。 很 多 大 公司 都 将 Storm 作为 大 数据 处 理 平台 的 核心 部 分 。 

同样 ,由 于 通用 关系 型 数据 库 在 数据 剧 增 时 会 出 现 系 统 扩 展 性 和 延迟 的 问题 ,因此 业界 
出 现 了 一 类 面向 半 结 构 化 数据 存储 和 处 理 的 高 可 扩展 、 低 写 入 /查询 延迟 的 系统 ,例如 键 值 
存储 系统 、 文 档 存 储 系 统 和 类 BigTable 存储 系统 等 ,这 些 系统 统称 为 NoSQL 系统 。 
Apache HBase 就 是 其 中 已 迈 向 实用 的 成 熟 系统 ,并 已 成 功 应 用 于 互联 网 服务 领域 和 传统 行 
业 的 众多 在 线 式 数据 分 析 处 理 系 统 中 。 

然而 ,分 布 式 的 构建 并 不 容易 。 人 们 日 常 使 用 的 应 用 大 多 基于 分 布 式 系统 ,在 短 时 间 内 
分 布 式 系统 的 现状 并 不 会 改变 。Apache Zookeeper 和 旨 在 减轻 构建 健壮 的 分 布 式 系统 的 任 
务 。Zookeeper 基于 分 布 式 计 算 的 核心 概念 而 设计 ,主要 给 开发 人 员 提 供 一 套 容 易 理 解 和 
开发 的 接口 ,从 而 简化 分 布 式 系统 构建 的 任务 。 

近年 来 ,活动 和 运营 数据 处 理 已 经 成 为 网 站 软件 产品 特性 中 一 个 至 关 重 要 的 组 成 部 分 ， 
需要 一 个 更 加 复杂 的 基础 设施 对 其 提供 支持 。Kafka 作为 一 个 分 布 式 的 消息 系统 ,以 可 水 
平 扩展 和 高 吞吐 率 而 被 广泛 使 用 ,Kafka 的 目的 是 提供 一 个 发 布 订阅 解决 方案 , 它 可 以 处 理 
消费 者 规模 网 站 中 的 所 有 动作 流 数据 , 即 通过 集群 机 来 提供 实时 的 消费 。 

本 书 对 实时 计算 系统 进行 了 全 面 的 介绍 ,章节 组 织 由 浅 入 深 , 内 容 阐 述 细致 入 微 且 贴近 
实际 ,可 以 作为 参考 书 以 方便 读者 在 开发 过 程 中 随时 查阅 。 我 相信 ,本 书 对 实时 计算 系统 的 
使 用 者 和 开发 者 来 说 都 是 及 时 和 不 可 或 缺 的 。 

读者 对 象 

本 书 适 合 以 下 读者 阅读 。 

CD 大 数据 技术 的 学 习 者 和 爱好 者 。 





(2) 有 Java 基础 的 开发 者 。 

(9) 大 数据 实时 计算 技术 开发 者 。 

(4) 实时 计算 集群 维护 者 。 

(5) 分 布 式 实时 计算 系统 相关 维护 人 员 。 

如 何 阅读 本 书 

本 书 共 分 为 五 个 部 分 。 

第 一 部 分 为 简介 。 简 介 部 分 为 第 1 章 , 主 要 介绍 了 分 布 式 实时 计算 系统 的 相关 知识 ,从 


分 布 式 的 基本 概念 到 分 布 式 通信 的 原理 ,最 后 引出 分 布 式 实时 计算 架构 的 四 个 模块 
Kafka,Storm, Zookeeper 和 HBase。 

第 二 部 分 为 数据 获取 模块 Kafka 的 相关 介绍 ,包括 第 2 章 一 第 4 章 。 本 部 分 介绍 了 
Kafka 的 相关 基础 知识 和 应 用 知识 ,让 读者 了 解 Kafka 的 结构 、 环 境 搭建 方式 以 及 消息 传输 
方式 等 。 本 部 分 首先 介绍 了 Kafka 的 基本 概念 ,引出 了 Kafka 的 基本 特性 以 及 Kafka 分 布 
式 系统 架构 中 关于 生产 者 和 消费 者 的 介绍 。 随 后 介绍 了 Kafka 的 环境 搭建 方法 ,最 后 介绍 
T Kafka 消息 传送 方面 的 知识 ,包括 性 能 优化 、 主 从 同步 以 及 客户 端 API 等 信息 ,同时 解释 
了 消息 和 日 志方 面 的 相关 概念 。 

第 三 部 分 为 数据 调度 模块 Zookeeper 的 相关 介绍 ,包括 第 5 章 。 本 部 分 讲解 了 
Zookeeper 相关 的 基础 知识 和 开发 知识 ,让 读者 了 解 Zookeeper 的 来 源 、 性 质 及 基本 概念 、 
Zookeeper 开发 的 应 用 方法 及 实现 方式 .Zookeeper 集群 的 配置 及 管理 方法 等 。 本 部 分 首先 
介绍 了 分 布 式 协作 存在 的 三 大 难点 ,引出 了 FLP 定律 和 CAP 定律 。 接 着 从 Zookeeper 的 
Znode 类 型 .通知 机 制 ,Lead 选择 方法 等 方面 介绍 Zookeeper 的 基本 概念 。 随 后 介绍 了 
Zookeeper 的 两 种 运行 模式 、 架 构 及 其 应 用 场景 ,并 详细 介绍 了 Zookeeper 可 调用 的 多 种 
API 用 法 ,包含 会 话 建立 ,管理 权 获 取 、 节 点 注册 、 任 务 队 列 化 等 。 最 后 介绍 了 Zookeeper 集 
群 管理 的 需求 及 方法 ,同时 解释 了 动态 选举 的 过 程 。 

第 四 部 分 为 数据 存储 模块 HBase 的 相关 介绍 ,包括 第 6 章 一 第 9 章 。 本 部 分 首先 介绍 
了 HBase 的 架构 以 及 存储 API, 然 后 介绍 了 HBase 的 基础 操作 ,包括 put. get, delete 操作 ， 
批 处 理 操作 以 及 HTable、Bytes 等 其 他 操作 。 随 后 介绍 了 HBase 的 高 阶 特性 ,包括 过 滤器 、 
计数 器 、 协 处 理 器 等 。 最 后 介绍 了 HBase 管理 部 分 的 内 容 ,包括 HBase 的 数据 描述 方式 以 
及 表 管 理 API 等 。 

第 五 部 分 为 数据 处 理 模块 Storm 的 相关 介绍 ,包括 第 10 章 一 第 14 章 。 本 部 分 首先 对 
Storm 的 基本 概念 进行 介绍 ,包括 Storm 的 基本 特性 、topology 的 构建 方式 .Storm 的 并 发 
机 制 以 及 数据 流 分 组 等 相关 知识 。 随 后 介绍 了 在 Linux 上 配置 Storm 集群 的 相关 方法 以 
及 如 何 将 topology 提交 到 Storm 集群 上 运行 。 从 Trident 的 topology、 接 口 、 状 态 等 方面 介 
绍 了 trident 的 相关 知识 ,同时 介绍 了 一 种 基于 Storm 的 实时 在 线 机 器 学 习 库 一 一 Trident- 
ML, 从 各 个 组 件 对 DRPC 进行 介绍 。 最 后 通过 两 个 具体 的 Storm 项 目 实例 让 读者 对 
Storm 有 更 深刻 的 理解 。 





编 者 
2018 年 5 月 
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分 布 式 实时 计算 系统 


1.1 分 布 式 的 概念 


Internet 是 由 各 种 不 同类 型 不同 地 区 不同 领域 的 网 络 构 成 的 互联 网 ,然而 互联 网 并 
没有 集中 式 的 控制 中 心 ,而 是 由 大 量 分 离 且 互联 的 节点 组 成 的 。 这 是 一 个 分 散 式 的 模型 。 


1.1.1 分 布 式 系统 


分 布 式 概念 是 在 网 络 这 个 大 前 提 下 诞生 的 。 传 统 的 计算 是 集中 式 的 计算 ,使 用 计算 能 
力 强 大 的 服务 器 处 理 大 量 的 计算 任务 ,但 这 种 超级 计算 机 的 建造 和 维护 成 本 极 高 , 且 明 显存 
在 很 大 的 瓶颈 。 与 之 相对 ,如 果 一 套 系统 可 以 将 需要 海量 计算 能 力 才 能 处 理 的 问题 拆 分 成 
许多 小 块 ,然后 将 这 些小 块 分 配给 同一 套 系统 中 不 同 的 计算 节点 进行 处 理 , 最 后 可 以 将 分 开 
计算 的 结果 合并 得 到 最 终结 果 , 这 种 系统 称 为 分 布 式 系统 。 对 这 种 系统 来 说 ,可 以 采用 多 种 
方式 在 不 同 节点 之 间 进 行 数据 通信 和 协调 ,而 网 络 消息 则 是 常用 手段 之 一 。 


1.1.2 分 布 式 计算 

分 布 式 系统 中 的 计算 ,就 是 将 一 个 复杂 庞大 的 计算 任务 适当 划分 为 一 个 个 小 任务 ,将 这 
些小 任务 分 配 到 不 同 的 计算 节点 上 ,每 个 计算 节点 只 需要 完成 自己 的 计算 任务 即 可 ,可 以 有 
效 分 担 海量 的 计算 任务 。 每 个 计算 节点 也 可 以 并 行 处 理 自身 的 任务 ,更 加 充分 利用 机 器 的 
CPU 资源 。 最 后 想方设法 将 每 个 节点 计算 结果 汇总 ,得 到 最 终 的 计算 结果 。 


最 好 确保 互 不 相干 ,这 样 每 个 节点 可 以 独立 运行 。 但 大 多 数 时 节点 之 间 还 是 需要 互相 通信 ,如 
获取 对 方 的 计算 结果 等 。 一 般 有 两 种 解决 方案 : 一 种 是 利用 消息 队列 ,将 节点 之 间 的 依赖 变 
成 节点 之 间 的 消息 传递 ; 第 二 种 是 利用 分 布 式 存储 系统 ,将 节点 的 执行 结果 暂时 存放 在 数据 
库 中 ,其 他 节点 等 待 或 从 数据 库 中 获取 数据 。 无 论 哪 种 方式 ,只 要 符合 实际 需求 都 是 可 行 的 。 


1.2 分 布 式 通 信 


1.2.1 分 布 式 通信 基础 


分 布 式 系统 中 两 个 相 邻 机 器 节点 之 间 的 可 靠 数据 传输 的 实现 不 易 , 因 为 原始 的 物理 链 
路 仅 由 传输 介质 和 设备 组 成 ,数据 在 两 个 设备 之 间 传 输 时 随时 可 能 因为 外 界 原因 而 丢失 或 





发 生变 化 ,直接 使 用 物理 链 路 无 法 确保 数据 在 相 邻 节点 之 间 的 可 靠 传 输 。 因 此 ,采用 在 数据 
链 路 中 将 数据 划分 为 一 个 个 分 组 ,将 每 个 分 组 称 为 “ 帧 ”。 帧 是 数据 链 路 层 的 数据 基本 传输 
单位 。 这 样 一 来 ,每 条 物理 链 路 都 可 以 按照 分 时 原则 传输 不 同 数 据 链 路 的 数据 分 组 ,实现 物 
理 链 路 的 复 用 。 然 而 ,目标 节点 如 何 识 别 出 帧 的 起 始 与 结束 位 置 呢 ? 这 就 是 所 谓 的 帧 同步 
问题 。 

常见 的 帧 同步 方法 有 字 节 计数 法 .字符 填充 的 首尾 定 界 法 .比特 填充 的 首尾 定 界 法 及 违 
法 编码 法 。 目 前 常见 的 是 比特 填充 的 首尾 定 界 法 和 违法 编码 法 (IEEE 802 标准 中 采用 此 方 
法 ) 。 比 特 填充 的 首尾 定 界 法 是 在 帧 的 起 始 位 置 和 结束 位 置 插入 一 组 固定 比特 位 ,用 以 界定 
帧 的 边界 。 既 然 使 用 了 一 组 固定 的 比特 位 , 帧 内 数据 就 要 采用 一 定 方式 来 避免 出 现 界定 帧 
边界 使 用 的 比特 位 模式 ,常常 填 人 额外 的 比特 位 来 解决 这 个 问题 。 

违法 编码 法 则 需要 物理 层 采 用 特定 的 比特 编码 方法 。 例 如 ,曼彻斯特 编码 法 是 将 1 编 
码 成 “高 一 低 ? 电 平 对 ,将 0 编码 成 “ 低 一 高 " 电 平 对 ,而 “高 一 高 ”和 * 低 一 低 ? 则 是 非法 电 平 
对 。 因 此 ,可 以 使 用 非法 电 平 对 作为 帧 的 分 界 符 。 


1.2.2 消息 队列 


消息 队列 是 一 种 消息 投递 的 抽象 。 这 种 概念 认为 模块 之 间 互 相 调用 可 以 分 解 成 互相 投 
递 消息 ,而 模块 可 以 是 一 个 进程 中 的 两 个 线程 ,可 以 是 同一 台 机 器 上 的 两 个 进程 ,可 以 是 不 
同 的 两 台 机 器 上 的 服务 ,甚至 可 以 是 从 一 个 集群 到 另 一 个 集群 ,其 概念 非常 广泛 。 

消息 队列 模型 如 图 1-1 所 示 。 
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图 1-1 消息 队列 模型 


可 以 看 到 ,发 送 方 和 接收 方 之 间 是 一 种 * 松 耦合 关系 ,也 就 是 说 发 送 者 并 不 是 将 消息 直 
接 发 送 到 接收 者 ,而 是 通过 一 个 名 为 消息 队列 的 服务 ,由 消息 队列 帮助 发 送 方 完成 消息 的 投 
递 。 接 收 者 则 负责 主动 从 消息 队列 中 获取 消息 , 当 获 取 到 消息 之 后 执行 相应 服务 ,并 通过 消 
息 队 列 向 发 送 方 投递 一 个 “回执 ”, 表 示 服 务 执行 结 

如 果 是 在 一 个 大 系统 中 的 几 个 小 系统 之 间 通 信 ,消息 队列 将 是 一 种 非常 好 的 方式 ,因为 
消息 队列 可 以 扩展 到 任何 范围 内 。 在 现在 的 分 布 式 系统 中 ,往往 会 有 一 个 "分布 式 消息 队 
列 ? 来 处 理 不 同 机 器 之 间 的 消息 通信 。 此 外 ,消息 队列 也 可 以 成 为 一 种 实现 RPC 的 技术 ,所 
以 消息 队列 适用 性 非常 广泛 。 

将 消息 队列 应 用 到 网 络 通信 中 时 ,常常 需要 一 台独 立 的 消息 队列 服务 器 或 者 由 一 个 消 
息 队 列 服务 器 集群 专门 处 理 消息 的 转发 。 这 也 是 一 种 模块 化 与 分 离 式 的 设计 ,让 消息 队列 
专注 于 消息 的 快速 投 送 , 而 让 其 他 服务 更 加 专注 于 实现 业务 功能 。 
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1.2.3 Storm 计算 模型 


Apache Storm 是 目前 最 为 流行 的 分 布 式 实 时 处 理 系统 之 一 。 起 初 Storm 使 用 的 是 传 
统 的 消息 队列 和 工作 线程 的 方式 ,也 就 是 说 ,使 用 一 个 程序 从 Twitter 上 抓 取 消息 ,并 将 
消息 写 入 消息 队列 中 ,接着 使 用 一 组 Python 编写 的 Worker 进程 从 消息 队列 中 读 取 并 
处 理 。 

通常 情况 下 ,一 个 Worker 进程 无 法 解决 所 有 问题 ,这 些 Worker 进程 常常 需要 将 消息 
写 人 一 个 新 的 消息 队列 中 ,并 使 用 一 组 新 的 Worker 进程 从 消息 队列 中 读 取 并 处 理 消 息 ,可 
以 用 图 1-2 来 描述 这 种 情况 。 
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图 1-2 消息 传递 与 获取 


Storm 团队 发 现 这 种 模型 非常 不 科学 ,因为 他 们 将 大 量 的 时 间 与 精力 花费 在 确保 消息 
队列 和 Worker 进程 的 可 用 性 上 ,而 且 编写 的 大 部 分 逻辑 都 集中 于 从 哪个 发 送 者 获取 信息 
和 怎样 序列 化 / 反 序 列 化 这 些 消息 中 的 很 小 一 部 分 。 这 是 一 种 反常 的 现象 。 为 了 解决 这 个 
问题 ,Storm 团队 开始 思考 一 种 新 的 计算 模型 ,尝试 解决 实时 的 计算 问题 ,并 让 开发 者 将 更 
多 的 关注 点 集中 在 业务 逻辑 而 非 消 息 的 传递 与 保障 上 。 

Storm 计算 模型 如 图 1-3 所 示 。 
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图 1-3 Storm 计算 模型 























在 Storm 中 ,一 个 实时 应 用 的 计算 任务 被 打包 作为 topology 发 布 ,这 同 Hadoop 的 
MapReduce 任务 相似 。 但 是 有 一 点 不 同 的 是 ,在 Hadoop 中 , MapReduce 任务 最 终 会 执行 
完成 后 结束 ; 而 在 Storm 中 ,topology 任务 一 旦 提交 后 永远 不 会 结束 ,除非 停止 任务 。 计 算 
任务 topology 是 由 不 同 的 Spouts 和 Bolts 通过 数据 流 (Stream) 连 接 起 来 的 图 。 

Storm 中 的 核心 抽象 概念 就 是 Streams, Streams 是 无 限制 的 元 组 (tuple) 的 序列 。 
Storm 以 分 布 式 的 .可 靠 的 方式 Spout 和 Bolt, 使 一 个 Stream 转换 到 另 一 个 Stream, 

Spout 是 作为 Storm 中 的 消息 源 ,用 于 为 topology 生产 消息 (数据 ) ,一 般 是 从 外 部 数据 
源 ( 如 Message Queue, RDBMS, NoSQL, Realtime Log ) 不 间断 地 读 取 数据 并 发 送 给 


topology 消息 (tuple 元 组 ) 。 

Bolt 是 Storm 中 的 消息 处 理 者 ,用 于 为 topology 进行 消息 的 处 理 ,Bolt 可 以 执行 过 滤 、 
聚合 .查询 数据 库 等 操作 ,而 且 可 以 一 级 一 级 地 进行 处 理 。Bolt 类 接收 由 Spout 或 者 其 他 上 
游 Bolt 类 发 来 的 tuple, 对 其 进行 处 理 。 


1.3 分 布 式 实 时 计算 系统 架构 


随 着 现今 社会 的 迅速 发 展 , 互 联网 中 的 使 用 数据 在 以 几何 级 的 倍数 增加 。 因 而 ,对 处 理 
和 存储 大 规模 数据 的 能 力 所 提 出 的 要 求 也 越 来 越 高 。 

为 了 解决 实时 数据 处 理 难 题 ,需要 设计 实现 实时 计算 系统 。 实 时 计算 系统 需要 满足 低 
延迟 、 高 性 能 、 分 布 式 、 可 扩展 、 容 错 等 特性 ,要 保证 消息 不 丢失 、 消 息 严 格 有 序 、 消 息 如 何 分 
发 以 保证 各 机 器 负载 均衡 等 。 因 此 ,本 节 从 数据 获取 ,数据 处 理 \ 数 据 存 储 等 多 个 方面 来 构 
建 解决 方案 。 


1.3.1 数据 获取 一 一 Kafka 


Kafka 是 一 种 提供 高 吞吐 量 的 分 布 式 发 布 订 阅 消息 系统 , 它 的 特性 如 下 。 

(1) 通过 磁盘 数据 结构 提供 消息 的 持久 化 ,这 种 结构 对 于 即使 数据 达到 TB 级 别 以 上 
的 消息 ,存储 也 能 够 保持 长 时 间 的 稳定 。 

(2) 高 吞吐 特性 使 得 Kafka 使 用 普通 的 机 器 硬件 也 能 支持 105 req/s 的 消息 。 

(3) 能 够 通过 Kafka Cluster 和 Consumer Cluster 来 Partition( 区 分 ) 消 息 。 

(4) Kafka 的 目的 是 提供 一 个 发 布 订阅 解决 方案 , 它 可 以 处 理 Consumer 网 站 中 的 所 有 
流动 数据 ,例如 在 网 页 浏览 .搜索 以 及 用 户 的 一 些 行为 ,这 些 动作 是 较为 关键 的 因素 。 这 些 
数据 通常 是 由 于 吞吐 量 的 要 求 而 通过 处 理 日 志和 日 志 聚 合 来 解决 。 对 于 Hadoop 这 样 的 日 
志 数 据 和 离线 计算 系统 ,这 是 较 好 解决 实时 处 理 问 题 的 一 种 方案 。 


1.3.2 ”数据 处 理 一 一 Storm 


在 面 对 如 实时 推荐 .用 户 行为 分 析 等 实时 性 要 求 较 高 的 业务 时 ,适合 离线 计算 的 
Hadoop 平台 上 的 MapReduce Ἡ #6 $2 ᾿ξ IN. FF AE. Twitter 推出 了 开源 分 布 式 容错 实时 
计算 系统 Storm ,填补 了 实时 流 计算 的 空缺 。 

Storm 的 主要 特点 如 下 。 

CD 简单 的 编程 模型 。 类 似 于 MapReduce 降低 了 并 行 批 处 理 的 复杂 性 ,Storm 降低 了 
进行 实时 处 理 的 复杂 性 。 

(2) 可 以 使 用 各 种 编程 语言 。 可 以 在 Storm 上 使 用 各 种 编程 语言 。 默 认 支 持 Clojure、 
Java, Ruby 和 Python。 要 增加 对 其 他 语言 的 支持 ,只 需 实 现 一 个 简单 的 Storm 通信 协议 
即 可 。 

(3) 容错 性 。Storm 会 管理 工作 进程 和 节点 的 故障 。 

(Ὁ 水 平 扩展 。 计 算是 在 多 个 线程 .进程 和 服务 器 之 间 并 行进 行 的 。 

(5) 可 靠 的 消息 处 理 。Storm 保证 每 个 消息 至 少 能 得 到 一 次 完整 处 理 。 任 务 失 败 时 ， 
它 会 负责 从 消息 源 重 试 消息 。 
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(6) 快速 。 系 统 的 设计 保证 了 消息 能 得 到 快速 的 处 理 , 使 用 ΖΜΩ 作为 其 底层 消息 队列 。 

(7) 本 地 模式 。Storm 有 一 个 本 地 模式 ,可 以 在 处 理 过 程 中 完全 模拟 Storm 集群 。 这 
让 用 户 可 以 快速 进行 开发 和 单元 测试 。 

Storm 集群 由 一 个 主 节点 和 多 个 工作 节点 组 成 。 主 节点 运行 一 个 名 为 Nimbus 的 守护 
进程 ,用 于 分 配 代码 ,布置 任务 及 故障 检测 。 每 个 工作 节点 都 运行 一 个 名 为 Supervisor 的 守 
护 进 程 ,用 于 监听 工作 ,开始 并 终止 工作 进程 。 

Nimbus 和 Supervisor 都 能 快速 失败 ( 当 发 生 任 何 意外 情况 时 进程 将 自己 结束 ) ,而 且 
是 无 状态 的 ,这 样 一 来 它们 就 变 得 十 分 健壮 ,两 者 的 协调 工作 是 由 Apache 的 Zookeeper 来 
完成 的 。 

由 于 Storm 默认 支持 Java 等 语言 , 即 采 用 了 Java 优秀 的 动态 加 载 技 术 。 对 于 类 文件 
只 有 用 到 时 才 会 去 加 载 ,如 不 用 就 不 会 去 加 载 。 不 管 是 使 用 new 方法 来 实例 化 某 个 类 或 是 
使 用 只 有 一 个 参数 的 Class. forName() 方 法 ,这 两 种 动态 机 制 内 部 都 隐 含 了 “ 载 人 类 十 运行 
静态 代码 块 2 的 步骤。 类 加 载 器 只 会 加 载 类 ,而 不 会 初始 化 静态 代码 块 ,只 有 当 实 例 化 这 个 
类 时 ,静态 代码 块 才 会 被 初始 化 。 


1.3.3 ”数据 存储 一 一 HBase 


HBase 是 一 个 分 布 式 的 面向 列 的 开源 数据 库 , 该 技术 来 源 于 Fay Chang 所 撰写 的 
Google 论文 《Bigtable: 一 个 结构 化 数据 的 分 布 式 存储 系统 》。 就 像 Bigtable 利用 了 Google 
文件 系统 (File System) 所 提供 的 分 布 式 数 据 存储 一 样 ,HBase 在 Hadoop 上 提供 了 类 似 于 
Bigtable 的 能 力 。HBase 是 Apache 的 Hadoop 项 目的 子 项 目 。HBase 不 同 于 一 般 的 关系 
数据 库 , 它 是 一 个 适合 于 非 结构 化 数据 存储 的 数据 库 。 另 一 个 不 同 的 是 ,HBase 的 存储 模 
式 基 于 列 模式 而 非 传 统 的 行 模式 。 














14 系统 架构 


基于 以 上 多 个 方面 考虑 ,本 书 采 用 以 下 架构 , 即 以 Storm 为 计算 处 理 核心 , 辅 以 HBase、 
Kafka 等 技术 的 分 布 式 实时 处 理 系统 ,如 图 1-4 所 示 。 
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图 1-4 分 布 式 实时 处 理 系统 


该 结构 采用 Kafka 生产 的 数据 作为 Storm 的 源头 spout 来 消费 ,以 Storm 进行 数据 实 
时 处 理 , 通 过 一 个 Zookeeper 集群 协调 Storm 集群 中 Nimbus 和 Supervisors 的 状态 维持 ， 





之 后 经 过 Storm 进行 Bolt 处 理 后 ,将 数据 结果 保存 到 HBase。 


本 章 小 结 


本 章 主要 从 几 个 方面 介绍 了 分 布 式 的 一 些 有 关 概 念 、Storm 计算 框架 的 相关 概念 以 及 
在 实时 处 理 方面 的 优势 ,让 读者 对 分 布 式 计算 及 Storm 计算 框架 有 初步 的 认识 。 

(1) 简单 地 介绍 了 分 布 式 中 分 布 式 系统 与 分 布 式 计算 两 个 重要 的 基本 概念 。 

(2) 详细 介绍 了 分 布 式 通信 概念 ,通过 消息 队列 与 Storm 计算 模型 对 比 , 了 解 Storm 计 
算 框架 进行 实时 计算 的 优势 所 在 。 

(3) 详细 介绍 了 一 个 分 布 式 实时 计算 系统 框架 ,从 数据 获取 到 数据 处 理 , 最 终 到 数据 存 
储 等 阶段 ,详细 说 明了 分 布 式 实时 处 理 系统 的 数据 处 理 流程 。 


J 题 


(D 什么 是 分 布 式 ? 解释 分 布 式 计算 与 分 布 式 系统 两 个 基本 概念 。 
(2) 为 什么 要 使 用 分 布 式 ? 分布 式 通信 的 特点 有 哪些 ? 

G) 什么 是 Storm 计算 模型 ? 请 详细 说 明 并 画 出 基本 模型 图 。 

(4) 比较 消息 队列 与 Storm 计算 模型 ,详细 说 明 两 者 的 异同 点 。 
(5) 请 简单 夯 出 一 个 简易 分 布 式 实时 处 理 系统 图 。 


ΑΙ i! Kafka 


21 什么 是 Kafka 


2.1.1 Kafka 概述 


Kafka 是 一 个 高 吞吐 的 分 布 式 消息 系统 ,最 初 是 由 LinkedIn 开发 ,用 作 LinkedIn 的 活 
Bi (activity stream) 和 运营 数据 处 理 管 道 C(pipeline) 的 基础 。 现 在 它 已 被 多 家 不 同类 型 的 
公司 作为 多 种 类 型 的 数据 管道 (data pipeline) 和 消息 系统 使 用 。 现 在 Kafka 则 是 Apache 的 
项 目 之 一 ,被 Apache 托管 。 

企业 集成 的 基本 特点 是 把 企业 中 现存 的 本 不 相干 的 各 种 应 用 进行 集成 。 例 如 ,一 个 企 
业 可 能 想 把 财务 系统 和 仓 管 系统 进行 集成 ,减少 部 门 间 结 算 和 流通 的 成 本 和 时 间 , 并 能 更 好 
地 支持 上 层 决策 。 但 这 两 个 系统 是 由 不 同 的 厂家 做 的 ,不 能 修改 。 另 外 ,企业 集成 是 一 个 持 
续 渐 进 的 过 程 , 需 求 变化 非常 频繁 。 这 就 要 求 MQ 系统 要 非常 灵活 ,可 定制 性 非常 高 。 常 
SLAY MQ 系统 通常 可 以 通过 复杂 的 XML 配置 或 插件 开发 进行 定制 ,以 适应 不 同 企业 的 业 
务 流 程 的 需要 。 它 们 大 多 数 都 能 通过 配置 不 同 程度 的 支持 EIP 中 定义 的 一 些 模式 ,但 设计 
目标 并 没有 很 重视 扩展 性 和 性 能 ,因为 通常 企业 级 应 用 的 数据 流 和 规模 都 不 会 非常 大 。 即 
使 有 的 比较 大 ,使 用 高 配置 的 服务 器 或 做 一 个 简单 几 个 节点 的 集群 就 可 以 满足 了 。 

大 规模 的 Service 是 指 面向 公众 的 向 Facebook, Google, LinkedIn 和 taobao 这 样 级 别 
或 有 可 能 成 长 到 这 个 级 别 的 应 用 。 相 对 企业 集成 来 讲 , 这 些 应 用 的 业务 流程 相对 比较 稳定 。 
子 系统 间 集 成 的 业务 复杂 度 也 相对 较 低 ,因为 子 系统 通常 也 是 经 过 精心 选择 和 设计 的 并 能 
做 一 定 的 调整 ,所 以 对 MQ 系统 的 可 定制 性 及 定制 的 复杂 性 要 求 并 不 高 。 但 由 于 数据 量 会 
非常 巨大 ,不 是 几 台 Server 能 满足 的 ,可 能 需要 几 十 台 甚 至 几 百 台 , 且 对 性 能 要 求 较 高 以 降 
低 成 本 ,所 以 MQ 系统 需要 有 很 好 的 扩展 性 。 而 Kafka 是 一 个 满足 SaaS BORA MQ 系统 ， 
它 可 通过 降低 MQ 系统 的 复杂 度 来 提高 性 能 和 扩展 性 。 


2.1.2 使 用 场景 


Kafka 消息 处 理 包括 以 下 场景 。 

OD 消息 处 理 。Kafka 可 以 用 来 蔡 代 传统 的 消息 系统 。 与 传统 的 消息 系统 相 比 ,Kafka 
有 更 好 的 吞吐 量 、 分 隔 、 复 制 、 负 载 均衡 和 容错 能 力 。 

(2) 网 页 动态 跟踪 。 最 初 的 Kafka 就 是 以 管道 的 方式 使 用 发 布 订 阅 的 ,构建 一 个 用 户 
的 活动 跟踪 系统 的 管道 。 


实时 计算 与 应 用 


(3) 运营 数据 监控 。 用 来 作为 监控 系统 运营 的 数据 管道 。 

(4) 日 志 聚 合 。 将 不 同系 统 、 不 同 平台 的 日 志 聚 合 到 一 起 做 集中 处 理 , 很 多 场景 用 来 作 
为 一 个 日 志 聚 合 的 解决 方案 。 

(5) 流 处 理 。 通 过 对 原始 数据 的 聚合 .富有 化 、 转 化 .包装 成 新 的 数据 ,再 次 发 布 成 消息 
供 以 后 使 用 。 


2.1.3 Kafka 基本 特性 


1. 可 靠 性 (一 致 性 ) 

MQ 要 实现 从 producer( 数 据 生产 者 ) 到 consumer( 数 据 使 用 者 ) 之 间 可 靠 地 传送 和 分 
发 消息 。 传 统 的 MQ 系统 通常 都 是 通过 broker( 代 理 ) 和 consumer 间 的 ack (确认) 机 制 实 
现 的 ,并 在 broker 保存 消息 分 发 的 状态 。 即 使 这 样 ,一致 性 也 是 很 难保 证 的 (当然 Kafka 也 
支持 ack 机 制 )。Kafka 的 做 法 是 由 consumer 自己 保存 状态 ,也 不 要 任何 确认 。 这 样 虽然 
consumer 负担 更 重 , 但 其 实 更 灵活 了 。 因 为 不 管 consumer 上 任何 原因 导致 需要 重新 处 理 
消息 ,都 可 以 再 次 从 broker 获得 。 

Kafka 的 producer 有 一 种 异步 发 送 的 操作 ,这 是 为 提高 性 能 提供 的 。producer 先 将 消 
息 放 在 内 存 中 ,就 返回 。 这 样 调用 者 (应 用 程序 ) 不 需要 等 网 络 传输 结束 就 可 以 继续 了 。 内 
存 中 的 消息 会 在 后 台 批量 地 发 送 到 broker。 由 于 消息 会 在 内 存 中 停留 一 段 时 间 , 这 段 时 间 


是 有 消息 丢失 的 风险 的 ,所 以 使 用 该 操作 时 需要 仔细 评估 这 一 点 。 
2. 高 可 用 性 


Kafka 可 以 将 Log( 记 录 ) 文 件 复 制 到 其 他 topic 的 分 隔 点 (可 以 看 成 Server) 。 当 一 个 
Server 在 集群 中 fails( 失 败 ) ,可 以 允许 自动 failover( 切 换 ) 到 其 他 复制 的 Server, 所 以 消息 
可 以 继续 存在 于 这 种 情况 下 。 

3. 扩展 性 

Kafka 使 用 Zookeeper 来 实现 动态 的 集群 扩展 ,不 需要 更 改 客户 端 (producer 和 
consumer) 的 配置 。broker 会 在 Zookeeper 注册 并 保持 相关 的 元 数据 (topic、partition 信息 
等 ) 更 新 ,而 客户 端 会 在 Zookeeper 上 注册 相关 的 watcher( 监控)。 一 旦 Zookeeper 发 生变 
化 ,客户 端 能 及 时 感知 并 做 出 相应 调整 。 这样 就 保证 了 添加 或 去 除 broker 时 ,各 broker 间 
仍 能 自动 实现 负载 均衡 。 

4. 负载 均衡 

负载 均衡 可 以 分 为 两 个 部 分 : producer 发 消息 的 负载 均衡 和 consumer 读 消 息 的 负载 均衡 。 

producer 有 一 个 到 当前 所 有 broker 的 连接 池 , 当 一 个 消息 需要 发 送 时 ,需要 决定 发 送 
到 哪个 broker( 即 partition)。 这 是 由 partition 实现 的 ,partition 是 由 应 用 程序 实现 的 。 应 
用 程序 可 以 实现 任意 的 分 区 机 制 。 要 实现 均衡 的 负载 均衡 同时 考虑 到 消息 顺序 的 问题 (只 
有 一 个 partition/broker 上 的 消息 能 保证 按 顺 序 投递 ) partition 的 实现 并 不 容易 。 

consumer 读 取消 息 时 ,除了 考虑 当前 的 broker 情况 外 ,还 要 考虑 其 他 consumer 的 情 
况 , 才 能 决定 从 哪个 partition 读 取消 息 。 


2.1.4 性 能 


性 能 是 Kafka 设计 重点 考虑 的 因素 ,应 使 用 多 种 方法 来 保证 稳定 的 IO 性 能 。 
Kafka 使 用 磁盘 文件 保存 收 到 的 消息 。 它 使 用 一 种 类 似 于 WAL(Write Ahead Log) {9 


机 制 来 实现 对 磁盘 的 顺序 读 写 , 然 后 再 定时 地 将 消息 批量 写 和 磁盘。 消息 的 读 取 基 本 也 是 
顺序 的 ,这 符合 MQ 的 顺序 读 取 和 追加 写 特性 。 

另外 ,Kafka 通过 批量 消息 传输 来 减少 网 络 传输 ,并 使 用 Java 中 的 发 送 文件 和 零 复 制 
机 制 来 减少 从 读 取 文件 到 发 送 消 息 间 内 存 数据 复制 和 内 核 用 户 态 切换 的 次 数 。 

根据 Kafka 的 性 能 测试 报告 ,其 性 能 基本 达到 了 1/0 的 复杂 度 。 
2.1.5 总 结 

Kafka 和 其 他 绝 大 多 数 消 息 系统 相 比 ,有 如 下 几 个 设计 决策 的 区 别 。 

(1) Kafka 将 持久 化 消息 作为 通常 的 使 用 情况 进行 考虑 。 

(2) 系统 设计 的 主要 约束 是 吞吐 量 而 不 是 功能 。 

(3) Kafka 将 数据 是 否 被 使 用 的 状态 信息 作为 数据 使 用 者 (consumer) 的 一 部 分 保存 ， 
而 不 是 保存 在 服务 器 上 。 

(4) Kafka 是 一 种 显 式 的 分 布 式 系统 。 数 据 生 产 者 (producer) ,代理 (broker) 和 数据 使 
用 者 (consumer) 分 散 于 多 台 机 器 上 。 
2.1.6 Kafka 在 LinkedIn 中 的 应 用 


图 2-1 所 示 是 在 LinkedIn 中 部 署 各 系统 形成 的 拓扑 结构 。 
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图 2-1 LinkedIn 中 各 系统 的 拓扑 关系 


需要 注意 的 是 ,一 个 单独 的 Kafka 集群 系统 用 于 处 理 来 自 各 种 不 同 来 源 的 所 有 活动 数 
据 。 它 同时 为 在 线 和 离线 的 数据 使 用 者 提供 了 一 个 单独 的 数据 管道 ,在 线 活动 和 异步 处 理 
之 间 形 成 一 个 缓冲 区 层 。 还 可 以 使 用 Kafka 把 所 有 数据 复制 (replicate) 到 另外 一 个 不 同 的 
数据 中 心 去 做 离线 处 理 。 

不 让 一 个 单独 的 Kafka 集群 系统 跨越 多 个 数据 中 心 , 而 是 让 Kafka 支持 多 数据 中 心 的 
数据 流 拓扑 结构 ,要 通过 在 集群 之 间 进 行 镜像 或 同步 来 实现 。 这 个 功能 非常 简单 ,镜像 集群 
只 是 作为 源 集群 的 数据 使 用 者 的 角色 运行 。 这 意味 着 ,一 个 单独 的 集群 就 能 够 将 来 自 多 个 
数据 中 心 的 数据 集中 到 一 个 位 置 。 图 2-2 所 示 是 可 用 于 支持 批量 加 载 (batch loads) 的 多 数 
据 中 心 拓扑 结构 的 一 个 例子 。 





大 数据 
QD ziiHSEH η 







πρ εεττ λαο 1 πο ορια. 1 
i Live Datacenter ' i Live Datacenter ! 
ἢ 1 1 
1 1 
| : | 
i ' 1 ! 
i ' i ! 
! i ! i 
i | | | 
! i ! i 
1 Local Kafka ! 1 Local Kafka ! 
i Cluster ' i Cluster ! 
] 1 1 
LE 1 μια fm 1 
Mirroring Mirroring 


Aggregate 
Kafka 
Cluster 


Dev 
Hadoop Hadoop 
Cluster Cluster 


i 
1 
i 
i 
1 
1 
i 
1 
i 
1 
i 
1 
i 
1 
i 
i 
i 
1 
i 


H Offline Datacenter 
图 2-2 多 数据 中 心 拓扑 结构 


注意 : 图 2-2 中 上 面部 分 的 两 个 集群 之 间 不 存在 通信 连接 ,两 者 可 能 大 小 不 同 , 具 有 不 
同 数 量 的 节点 。 下 面部 分 的 单独 的 集群 可 以 镜像 任意 数量 的 源 集群 。 


22 Topics 和 logs 


首先 深入 了 解 一 下 Kafka 提供 的 high-level 的 抽象 一 一 Topic。 

Topic 可 以 看 成 不 同 消息 的 类 别 或 者 信息 流 , 不 同 的 消息 通过 不 同 的 Topic 进行 分 类 
或 者 汇总 ,然后 producer 将 不 同 分 类 的 消息 发 送 到 不 同 的 Topic。 对 于 每 一 个 Topic， 
Kafka 集群 维护 一 个 分 区 的 日 志 , 如 图 2-3 所 示 。 


Anatomy of a Topic 
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图 2-3 Topic 的 分 布 解析 


由 图 2-8 可 以 看 出 ,每 个 partition 中 的 消息 序列 都 是 有 序 的 ,并 且 不 可 更 改 , 这 些 分 区 
可 以 在 尾部 不 停 地 追加 消息 。 同 一 分 区 中 的 不 同 消息 都 会 分 配 一 个 唯一 的 数字 进行 标识 ， 
这 个 数字 被 称 为 offset, 用 于 进行 消息 的 区 分 。 每 一 条 消息 都 是 由 若干 个 字 节 构成 。 

Kafka 集群 可 以 保存 所 有 发 布 的 消息 ,无 论 消息 是 否 被 消费 ,保存 时 间 都 是 可 配置 的 。 
例如 ,如 果 日 志保 存 时 间 设 置 为 两 天 . 则 从 日 志保 存 之 时 开始 ,两 天 之 内 都 是 可 消费 的 ,然而 





两 天 之 后 消息 会 被 抛弃 ,以 释放 空间 。 因 此 ,Kafka 可 以 高 效 持久 地 保存 大 量 数据 。 

事实 上 ,每 个 消费 者 所 需要 保存 的 元 数据 只 有 一 个 offset( 偏 移 值 ) , 即 记录 日 志 中 当前 
consume 的 位 置 。offset 是 由 consumer 所 控制 的 。 通 常情 况 下 ,offset 会 随 着 consumer [3] 
读 消息 而 线性 地 递增 ,好 像 offset 只 能 被 动 跟随 consumer 阅读 变化 。 但 实际 上 ,offset 完 
全 是 由 consumer 控制 的 , consumer 可 以 从 任何 它 喜 欢 的 位 置 consume 消息 。 例 如 ， 
consumer 可 以 将 offset 重新 设置 为 先前 的 值 并 重新 consume 数据 。 

这 些 特征 共同 说 明 ,Kafka consumer 可 以 很 廉价 地 进行 操作 。 在 不 必 影 响 集 群 和 其 他 
consumer 的 情况 下 ,consumer 可 以 很 自由 地 来 去 。 例 如 ,可 以 使 用 Kafka 提供 的 命令 行 工 
具 去 追踪 任何 Topic 的 内 容 ,而 不 必 改 变 当前 consumer 所 使 用 的 Topic 内 容 。 

日 志 服 务 器 中 存在 partition 有 若干 目的 : 多 个 分 区 的 共存 可 以 使 日 志 规模 超过 单独 
Server 的 尺寸 。 需 要 注意 的 是 ,每 一 个 单独 的 分 区 必须 符合 所 在 Server 的 尺寸 , 即 同一 个 
Topic 的 同一 个 partition 的 数据 只 能 在 同一 台 Server. 上 存储 ,也 就 是 说 同一 个 Topic 下 的 
同一 个 partition 的 数据 不 能 同时 存放 于 两 台 Server 上 ,但 是 同一 个 Topic 可 以 包含 很 多 
partition。 这 样 就 使 同一 个 Topic 可 以 包含 任意 数量 的 数据 ,理论 上 可 以 通过 增加 Server 
的 数目 来 增加 partition MRA. OZA partition 的 存在 ,可 以 作为 数据 并 行 处 理 的 单位 ， 
而 不 是 以 bit 为 单位 ( 既 可 以 由 多 个 consumer 使 用 不 同 的 partition, 也 可 以 由 不 同 的 
consumer 使 用 同一 个 partition ,因为 offset 是 由 consumer 控制 的 ) 。 








23 分布 式 一 一 consumers 和 producers 


每 个 分 区 在 Kafka 集群 的 若干 服务 中 都 有 副本 ,这些 持 有 副本 的 服务 可 以 共同 处 理 数 
据 和 请 求 , 副 本 数量 是 可 以 配置 的 。 副 本 使 Kafka 具备 了 容错 能 力 。 

每 个 分 区 都 由 一 个 服务 器 作为 leader( 领 导 者 ) , 零 个 或 若干 个 服务 器 作为 followers GR Bi 
者 ) leader 负责 处 理 消息 的 读 和 写 ,followers 则 去 复制 leader, WR leader 离线 了 ,followers 
中 的 一 台 则 会 自动 成 为 leader。 集 群 中 的 每 个 服务 都 会 同时 扮演 两 个 角色 : 作为 它 所 持 有 的 
一 部 分 分 区 的 leader, 同 时 作为 其 他 分 区 的 followers, 这 样 集群 就 会 具有 较 好 的 负载 均衡 。 

producer 将 消息 发 布 到 它 指定 的 Topic 中 ,并 负责 决定 发 布 到 哪个 分 区 。 通 常 简单 地 由 
负载 均衡 机 制 随机 选择 分 区 ,但 也 可 以 通过 特定 的 分 区 函数 选择 分 区 。 使 用 得 更 多 的 是 第 二 
种 。 发 布 消息 通常 有 两 种 模式 : 队列 模式 (queuing) 和 发 布 一 订阅 模式 (publish-subscribe) 。 

队列 模式 中 ,consumers 可 以 同时 从 服务 端 读 取 消息 ,每 个 消息 只 被 其 中 一 个 consumer 
读 到 。 发 布 一 订阅 模式 中 ,消息 被 广播 到 所 有 的 consumer 中 。consumers 可 以 加 入 一 个 
consumer 组 ,共同 竞争 一 个 Topic. Topic 中 的 消息 将 被 分 发 到 组 中 的 一 个 成 员 中 。 同 一 组 
中 的 consumer 可 以 在 不 同 的 程序 中 ,也 可 以 在 不 同 的 机 器 上 。 如 果 所 有 的 consumer 都 在 
一 个 组 中 , 这 就 成 了 传统 的 队列 模式 ,在 各 consumer 中 实现 负载 均衡 ; 如 果 所 有 的 
consumer 都 在 不 同 的 组 中 ,这 就 成 了 发 布 一 订阅 模式 ,所 有 的 消息 都 被 分 发 到 所 有 的 
consumer 中 。 更 常见 的 是 ,每 个 Topic 都 有 若干 数量 的 consumer 组 ,每 个 组 都 是 一 个 逻辑 
上 的 “订阅 者 ”。 为 了 容错 和 更 好 的 稳定 性 ,每 个 组 由 若干 consumer 组 成 。 这 就 是 一 个 发 
布 一 订阅 模式 ,只 不 过 订阅 者 是 单个 的 组 ,而 不 是 单个 consumer。 

由 两 个 机 器 组 成 的 集群 拥有 4 个 分 区 (P0 一 P3)、2 个 consumer 组 ,A 组 有 两 个 consumer 
而 B 组 有 4 个 ,如 图 2-4 所 示 。 
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图 2-4 两 个 机 器 组 成 的 集群 








传统 的 队列 在 服务 器 上 保存 有 序 的 消息 ,如 果 多 个 consumers 同时 从 这 个 服务 器 消费 
消息 ,服务 器 就 会 以 消息 存储 的 顺序 向 consumer 分 发 消息 。 虽 然 服务 器 按 顺序 发 布 消息 ， 
但 是 消息 是 被 异步 分 发 到 各 consumer 上 ,所 以 当 消 息 到 达 时 可 能 已 经 失去 了 原来 的 顺序 ， 
这 意味 着 并 发 消费 将 导致 顺序 错乱 。 为 了 避免 故障 ,这 样 的 消息 系统 通常 使 用 “专用 
consumer” 的 概念 ,其 实 就 是 只 允许 一 个 消费 者 消费 消息 ,当然 这 就 意味 着 失去 了 并 发 性 。 

在 这 方面 Kafka 做 得 更 好 ,通过 分 区 的 概念 ,Kafka 可 以 在 多 个 consumer 组 并 发 的 情 
况 下 提供 较 好 的 有 序 性 和 负载 均衡 。 将 每 个 分 区 只 分 发 给 一 个 consumer 组 ,这 样 一 个 分 
区 只 被 这 个 组 的 一 个 consumer 消费 ,就 可 以 顺序 地 消费 这 个 分 区 的 消息 。 因 为 有 多 个 分 
区 ,依然 可 以 在 多 个 consumer 组 之 间 进 行 负载 均衡 。 注 意 ,consumer 组 的 数量 不 能 多 于 分 
区 的 数量 ,也 就 是 有 多 少 分 区 就 允许 多 少 并 发 消费 。 

Kafka 只 能 保证 一 个 分 区 之 内 消息 的 有 序 性 ,在 不 同 的 分 区 之 间 是 不 可 以 的 ,这 已 经 所 
以 满足 大 部 分 应 用 的 需求 。 如 果 需 要 Topic 中 所 有 消息 有 序 , 那 只 能 让 这 个 Topic 只 有 一 
个 分 区 ,当然 也 就 只 有 一 个 consumer 消费 它 。 


本 章 小 结 


本 章 学 习 了 Kafka 的 相关 特性 .包括 Topics 和 Logs, 以 及 分 布 式 系统 中 的 producers 
和 consumers。 本 章 的 知识 点 如 下 。 

A) Kafka 的 相关 特性 ,应 用 场景 以 及 特点 。 其 重要 性 不 言 而 喻 ,在 宏观 上 对 Kafka 有 
了 一 定 的 了 解 。 

(2) Topics 和 Logs。 首 先 要 对 消息 队列 有 所 了 解 , 明 白 消息 队列 中 Topic 的 分 布 和 解 
析 是 有 序 的 。 

(3) consumer 和 producer。 对 于 生产 者 和 消费 者 ,要 熟知 它们 的 消息 处 理 方式 。 最 后 
要 了 解 的 是 ,相对 于 其 他 的 消息 系统 ,Kafka 可 以 很 好 地 保证 有 序 性 。 


J Β 


(1) Kafka 有 何 特性 ? 
(2) Kafka 有 哪些 组 件 ? 请 做 简要 介绍 。 


Kafka 环境 搭建 


3.1 服务 器 搭建 


Kafka 服务 器 的 搭建 可 按 以 下 步骤 进行 。 

(1) 下 载 Kafka。 下 载 最 新 的 版 本 并 解压 。 

> tar -xzf kafka 2.9.2-0.8.1.1.tgz 

> cdkafka 2.9.2- 0.8.1.1 

(2) 启动 服务 。Kafka 用 到 了 Zookeeper, 所 以 首先 应 启动 Zookeeper。 下 面 启用 一 
个 单 实 例 的 Zookeeper 服务 。 可 以 在 命令 的 结尾 加 δ. 符号 ,这 样 就 可 以 启动 服务 后 离 
开 控 制 台 。 


> bin/zookeeper- server- start.sh config/zookeeper.properties & 
[2013-04-22 15:01:37, 495] INFO Reading configuration from: config/zookeeper.properties (org. 


apache.zookeeper.server.quorum.QuorumPeerConfig) 


现在 启动 Kafka: 


> bin/kafka- server- start.sh config/server.properties 

[2013- 04- 22 15:01:47,028] INFO Verifying properties (kafka.utils.VerifiableProperties) 
[2013-04-22 15:01:47,051] INFO Property socket.send.buffer.bytes is overridden to 1048576 
(kafka.utils.VerifiableProperties) 


(3) 创建 Topic。 创 建 一 个 叫 作 test 的 Topic, 它 只 有 一 个 分 区 ,一 个 副本 。 


> bin/kafka- topics. sh - - create - - zookeeper localhost: 2181 - - replication- factor 
1--partitions 1 -- topic test 


可 以 通过 list 命令 查看 创建 的 Topic. 

> bin/kafka- topics.sh -- list -- zookeeper localhost:2181 

test 

除了 手动 创建 Topic, 还 可 以 配置 broker 来 自动 创建 Topic。 

(4) 发 送 消息 。Kafka 使 用 一 个 简单 的 命令 行 producer, 从 文件 或 者 标准 输入 中 读 取 
消息 并 发 送 到 服务 端 。 默 认 每 条 命令 将 发 送 一 条 消息 。 





运行 producer ,并 在 控制 台 输 入 一 些 消息 ,这 些 消息 将 被 发 送 到 服务 端 。 


> bin/kafka- console- producer.sh --broker- list localhost:9092 -- topic test 

This is a message This is another message 

按 Ctrl 十 C 组 合 键 可 以 退出 发 送 。 

(5) 启动 consumer, Kafka 有 一 个 命令 行 consumer, 可 以 读 取 消息 并 输出 到 标准 


> bin/kafka- console- consumer.sh -- zookeeper localhost:2181 --topic test -- from-beginning 

This is a message 

This is another message 

在 一 个 终端 运行 consumer 命令 行 ,在 另 一 个 终端 运行 producer 命令 行 ,就 可 以 在 一 个 
终端 输入 消息 ,在 另 一 个 终端 读 取 消息 。 

这 两 个 命令 都 有 自己 的 可 选 参数 ,可 以 在 运行 时 不 加 任何 参数 就 看 到 帮助 信息 。 

(6) 搭建 一 个 具有 多 个 broker 的 集群 。 刚 才 只 是 启动 了 单个 broker, 现 在 启动 由 3 个 
broker 组 成 的 集群 ,这 些 broker 节点 都 是 在 本 机 上 。 

首先 为 每 个 节点 编写 配置 文件 。 


> cp config/server.properties config/server- l.properties 
> cp config/server.properties config/server-2.properties 


在 复制 出 的 新 文件 中 添加 以 下 参数 。 


config/server- l.properties: 
broker.id-1 
port- 9093 
log.dir- /tmp/kafka- logs- 1 
config/server- 2.properties: 
broker.id-2 
port- 9094 
log.dir- /tmp/kafka- logs- 2 


broker. id 在 集群 中 唯一 标注 一 个 节点 ,因为 在 同一 个 机 器 上 ,所 以 必须 制定 不 同 的 端 
口 和 日 志文 件 , 避 免 数 据 被 覆盖 。 
刚才 已 经 启动 Zookeeper 和 一 个 节点 ,现在 启动 另外 两 个 节点 。 


> bin/kafka- server- start.sh config/server- l.properties & 


> bin/kafka- server- start.sh config/server-2.properties & 


创建 一 个 拥有 3 个 副本 的 Topic. 


> bin/kafka- topics. sh - - create - - zookeeper localhost: 2181 - - replication- factor 
3 --partitions 1 -- topic my- replicated- topic 
现在 已 经 搭建 了 一 个 集群 ,怎么 知道 每 个 节点 的 信息 呢 ? 运行 describe topics 命令 就 
可 以 了 。 


> bin/kafka- topics.sh -- describe —— zookeeper localhost:2181 — topic my- replicated- topic 

Topic:myreplicatedtopic PartitionCount:1 ReplicationFactor:3 Configs: 

Topic: my- replicated- topic Partition: 0 Leader: 1 Replicas: 1,2,0 Isr: 1,2,0 

其 中 ,第 一 行 是 对 所 有 分 区 的 一 个 描述 ,上 且 每 个 分 区 都 会 对 应 一 行 ,因为 只 有 一 个 分 区 ， 
所 以 下 面 只 加 了 一 行 。 

Leader: 负责 处 理 消息 的 读 和 写 ,Leader 是 从 所 有 节点 随机 选择 的 。 

Replicas: 列 出 了 所 有 的 副本 节点 ,不 管 节 点 是 否 在 服务 中 。 

Isr: 是 正在 服务 中 的 节点 。 

在 本 例 中 ,节点 1 是 作为 Leader 运行 。 向 Topic 发 送 消息 。 


> bin/kafka- console- producer.sh --broker- list localhost:9092 -- topic my- replicated- topic 


my test message lmy test message 2^C 
消费 这 些 消 息 : 


> bin/kafka- console- consumer.sh -- zookeeper localhost:2181 -- from- beginning -- topic my- 
replicated- topic 


my test message 1 
my test message 2 


32 开发 环境 搭建 


搭建 好 了 Kafka 的 服务 器 ,可 以 使 用 Kafka 的 命令 行 工 具 创建 Topic, 发 送 和 接收 消 
息 。 下 面 介绍 搭建 Kafka 的 开发 环境 。 

1. 添加 依赖 

搭建 开发 环境 需要 引入 Kafka 的 jar 包 ,一 种 方式 是 将 Kafka 安装 包 中 lib 目录 下 的 jar 
包 加 入 项 目的 classpath 中 ; 另 一 种 方式 是 使 用 maven 管理 jar 包 依赖 。 

创建 好 maven 项 目 后 ,在 pom. xml 中 添加 以 下 依赖 。 


<dependency> 
«groupId» org.apache.kafka< /groupId> 
<artifactId> kafka 2.10« /artifactId> 
«version» 0.8.0« /version» 


< /dependency» 


添加 依赖 后 会 发 现 有 两 个 jar 包 的 依赖 找 不 到 。 下 载 这 两 个 jar 包 , 解 压 后 有 两 种 选 
择 : 第 一 种 是 使 用 mvn 的 install 命令 将 jar 包 安 装 到 本 地 仓库 ; 另 一 种 是 直接 将 解压 后 的 
文件 夹 复制 到 mvn 本 地 仓库 的 com 文件 夹 下 ,如 d:\mvn。 完 成 后 目录 结构 如 图 3-1 
所 示 。 

2. 配置 程序 

首先 是 一 个 充当 配置 文件 作用 的 接口 ,配置 了 Kafka 的 各 种 连接 参数 。 


» 计算 机 » BD (D) » myn » com » sun » 














package com.sohu.kafkademon; 
public interface KafkaProperties 
{ 
final static String zkConnect = "10.22.10.139:2181"; 
final static String groupId - "groupl"; 
final static String topic = "topicl"; 
final static String kafkaServerURL - "10.22.10.139"; 
final static int kafkaServerPort - 9092; 
final static int kafkaProducerBufferSize — 64 * 1024; 
final static int connectionTimeOut - 20000; 
final static int reconnectInterval = 10000; 
final static String topic2 - "topic2"; 
final static String topic3 - "topic3"; 
final static String clientId - "SimpleConsumerDemoClient"; 
} 
Producer 
package com.sohu.kafkademon; 
import java.util.Properties; 
import kafka.producer.KeyedMessage; 
import kafka.producer.ProducerConfig; 
/** 
*QGauthor leicui bourne cui@ 163.com 
* 
public class KafkaProducer extends Thread 
{ 


= l 


private final kafka.javaapi.producer.Producer« Integer, String» producer; 
private final String topic; 
private final Properties props - new Properties(); 
public KafkaProducer (String topic) 
t 
props.put ("serializer.class", "kafka.serializer.StringEncoder"); 
props.put ("metadata.broker.list", "10.22.10.139:9092"); 
producer = new kafka.javaapi.producer.Producer« Integer, String» (new 
ProducerConfig (props)); 
this.topic = topic; 
} 
@ Override 
public void run() { 
int messageNo = 1; 
while (true) 





String messageStr — new String("Message " * messageNo); 
System.out.println ("Send:" + messageStr); 
producer .send (new KeyedMessage< Integer, String> (topic, messageStr)); 
messageNo* + ; 
try { 

sleep (3000) ; 
} catch (InterruptedException e) { 

//TODO Auto- generated catch block 

e.printStackTrace () ; 


Consumer 
package com.sohu.kafkademon; 
import java.util.HashMap; 
import java.util.List; 
import java.util.Map; 
import java.util.Properties; 
import kafka.consumer.ConsumerConfig; 
import kafka.consumer.ConsumerIterator; 
import kafka.consumer.KafkaStream; 
import kafka.javaapi.consumer.ConsumerConnector; 
/** 
*Qauthor leicui bourne cui 163.com 
af 
public class KafkaConsumer extends Thread 
{ 

private final ConsumerConnector consumer; 

private final String topic; 

public KafkaConsumer (String topic) 

{ 

consumer = kafka.consumer.Consumer.createJavaConsumerConnector ( 
createConsumerConfig()); 
this.topic - topic; 


} 

private static ConsumerConfig createConsumerConfig() 

t 
Properties props = new Properties (); 
props.put ("zookeeper.connect", KafkaProperties.zkConnect); 
props.put ("group.id", KafkaProperties.groupId) ; 
props.put ("zookeeper.session.timeout.ms", "40000"); 
props .put ("zookeeper.sync.time.ms", "200"); 
props.put ("auto.commit.interval.ms", "1000"); 
return new ConsumerConfig (props); 

H 

@ Override 


public void run() { 
Map< String, Integer» topicCountMap = new HashMap< String, Integer»? (); 


topicCountMap.put (topic, new Integer (1)); 

Map< String, List < KafkaStream < byte[ ], byte[ ] > > > consumerMap = 
createMessageStreams (topicCountMap) ; 

KafkaStream< byte ], byte[ 1» stream = consumerMap.get (topic) .get (0); 

ConsumerIterator< byte[ ], byte[]> it = stream.iterator(); 

while (it.hasNext()) { 


System.out.println("receive: "+ new String (it.next () message () )) ; 
try { 
sleep (3000) ; 
} catch (InterruptedException e) { 
e.printStackTrace () ; 
} 


3. 简单 的 发 送 /接收 
运行 以 下 程序 ,可 以 进行 简单 的 发 送 /接收 消息 。 


package com.sohu.kafkademon; 
J 太太 
*@author leicui bourne cui@ 163.com 
μα 
public class KafkaConsumerProducerDemo 
{ 
public static void main(String| ] args) 
t 
KafkaProducer producerThread - new KafkaProducer (KafkaProperties.topic); 
producerThread.start () ; 
KafkaConsumer consumerThread - new KafkaConsumer (KafkaProperties.topic); 
consumerThread.start (}; 


) 


4. 高 级 别 的 consumer 
以 下 是 比较 负载 的 发 送 /接收 的 程序 。 


package com. sohu. kafkademon; 

import java.util.HashMap; 

import java.util.List; 

import java.util.Map; 

import java.util.Properties; 

import kafka.consumer.ConsumerConfig; 
import kafka.consumer.ConsumerIterator; 
import kafka.consumer.KafkaStream; 
import kafka.javaapi .consumer.ConsumerConnector; 
[** 

* @author leicui bourne_cui@163.com 

zf 

public class KafkaConsumer extends Thread 
t 








private final ConsumerConnector consumer; 
private final String topic; 

public KafkaConsumer (String topic) 

t 


consumer — kafka.consumer.Consumer.createJavaConsumerConnector ( 
createConsumerConfig()); 
this.topic = topic; 
H 
private static ConsumerConfig createConsumerConfig() 
1 
Properties props - new Properties(); 
props.put ("zookeeper.connect", KafkaProperties.zkConnect); 
props.put ("group.id", KafkaProperties.groupId); 
props.put ("zookeeper.session.timeout.ms", "40000"); 
props.put ("zookeeper.sync.time , "200"); 
props.put ("auto.commit.interval.ms", "1000"); 
return new ConsumerConfig (props); 





} 
@ Override 
public void run() { 
Map< String, Integer> topicCountMap = new HashMap< String, Integer> (); 
topicCountMap.put (topic, new Integer (1) ); 
Μαρς String, List< KafkaStream< byte[ ], byte[ ] > > > consumerMap = consumer. 
createMessageStreams (topicCountMap) ; 
Kafkastream< byte[ ], byte[]> stream = consumerMap.get (topic) .get (0); 
ConsumerIterator< byte[ ] * byte ]» it- stream.iterator(); 
while (it.hasNext()) { 
System.out.println("receive: "+ new String (it.next () message () )) 
try { 
sleep (3000) ; 
} catch (InterruptedException e) { 
e.printStackTrace () ; 
} 


本 章 小 结 
通过 本 章 的 学 习 , 对 Kalka 的 搭建 有 了 一 定 的 了 解 ,知道 了 如 何 措 建 Kafka 系统 以 及 对 


一 些 问 题 的 处 理 方式 。 
第 4 章 将 对 Kafka 的 结构 进行 介绍 。 


j we 


请 试 着 按照 本 章 的 方法 在 本 机 上 搭建 Kafka 集群 。 


Kafka 消息 传送 


41 消息 传输 的 事务 定义 


之 前 讨论 了 consumer 和 producer 是 怎么 工作 的 ,现在 来 讨论 数据 传输 。 数 据 传输 的 
事务 定义 通常 有 以 下 三 种 级 别 。 

最 多 一 次 : 消息 不 会 被 重复 发 送 , 最 多 被 传输 一 次 ,但 也 有 可 能 一 次 不 传输 。 

最 少 一 次 : 消息 不 会 被 漏 发 送 , 最 少 被 传输 一 次 ,但 也 有 可 能 被 重复 传输 。 

精确 的 一 次 (Exactly once) : 不 会 漏 传输 也 不 会 重复 传输 ,每 个 消息 都 被 传输 一 次 而 且 
仅仅 被 传输 一 次 ,这 是 大 家 所 期 望 的 。 

大 多 数 消息 系统 声称 可 以 做 到 “精确 的 一 次 ”, 但 是 仔细 阅读 这 些 文档 可 以 看 到 里 面 存 
在 误导 ,例如 没有 说 明 当 consumer 或 producer 失败 时 怎么 样 ,或 者 当 有 多 个 consumer 并 
行 时 怎么 样 , 或 写 人 硬盘 的 数据 丢失 时 又 会 怎么 样 。Kafka 的 做 法 要 先进 一 些 。 当 发 布 消 
息 时 ,Kafka 有 一 个 committed 的 概念 ,一 旦 消息 被 提交 了 ,只 要 消息 被 写 入 的 分 区 所 在 的 
副本 broker 是 活动 的 ,数据 就 不 会 丢失 。 关 于 副本 的 活动 的 概念 ,下 节 会 讨论 ,现在 假设 
broker 是 不 会 离线 (down) 的 。 

如 果 producer 发 布 消息 时 发 生 了 网 络 错误 ,但 又 不 确定 是 在 提交 之 前 发 生 的 还 是 提交 
之 后 发 生 的 ,这 种 情况 虽然 不 常见 ,但 是 必须 考虑 进去 。 现 在 的 Kafka 版 本 还 没有 解决 这 个 
问题 ,将 来 的 版 本 正在 努力 尝试 解决 。 

并 不 是 所 有 的 情况 都 需要 “精确 的 一 次 ”这 样 高 的 级 别 ,Kafka 允许 producer 灵活 地 指 
定 级 别 。 如 producer 可 以 指定 必须 等 待 消息 被 提交 的 通知 ,或 者 完全 异步 发 送 消息 而 不 等 
待 任何 通知 ,或 者 仅仅 等 待 leader 声明 它 拿 到 了 消息 (followers 没有 必要 )。 

现在 从 consumer 方面 考虑 这 个 问题 ,所 有 的 副本 都 有 相同 的 日 志文 件 和 相同 的 
offset, consumer 维护 自己 消费 的 消息 的 offset. 如果 consumer 不 会 崩 演 , 则 可 以 在 内 存 中 
保存 这 个 值 ,当然 谁 也 不 能 保证 这 一 点 。 如 果 consumer 骨 溃 了 ,会 有 另外 一 个 consumer 
接着 消费 消息 , 它 需 要 从 一 个 合适 的 offset 继续 处 理 。 这 种 情况 下 可 以 有 以 下 选择 。 

consumer 可 以 先 读 取消 息 , 然 后 将 offset 写 人 日志 文件 中 ,再 处 理 消 息 。 这 存在 一 种 
可 能 ,在 存储 offset 后 还 没 处 理 消息 就 崩 演 (crash) 了 ,新 的 consumer 继续 从 这 个 offset F 
始 处 理 , 那 么 就 会 有 些 消息 永远 不 会 被 处 理 , 这 就 是 上 面 说 的 “最 多 一 次 ”。 

consumer 可 以 先 读 取 消息 ,处 理 消息 ,最 后 记录 offset, 但 如 果 在 记录 offset 之 前 就 崩 
溃 了 ,新 的 consumer 会 重复 消费 一 些 消息 ,这 就 是 上 面 说 的 “最 少 一 次 ”。 








“精确 的 一 次 ”可 以 通过 将 提交 分 为 两 个 阶段 来 解决 。 保 存 offset 后 提交 一 次 ,消息 处 
理 成 功 之 后 再 提交 一 次 。 但 是 还 有 更 简单 的 做 法 .将 消息 的 offset 和 消息 被 处 理 后 的 结果 
保存 在 一 起 。 例 如 ,用 Hadoop ETL 处 理 消 息 时 ,将 处 理 后 的 结果 和 offset 同时 保存 在 
HDFS 中 ,这 样 就 能 保证 消息 和 offset 同时 被 处 理 了 。 


42 性 能 优化 


Kafka 在 提高 效率 方面 做 了 很 大 努力 。Kafka 的 一 个 主要 使 用 场景 是 处 理 网 站 活动 日 
志 , 吞 吐 量 是 非常 大 的 ,每 个 页 面 都 会 产生 很 多 次 写 操作 。 读 方面 ,假设 每 个 消息 只 被 消费 
一 次 , 读 的 量 也 是 很 大 的 ,Kafka 尽量 使 读 的 操作 更 轻 量 化 。 

之 前 已 经 讨论 了 磁盘 的 性 能 问题 ,线性 读 写 的 情况 下 影响 磁盘 性 能 问题 大 约 有 两 个 方 
ΠΠ: 太 多 琐碎 的 L/O 操作 和 太 多 的 字 节 复制 。I/O 问题 可 能 发 生 在 客户 端 和 服务 端 之 间 ， 
也 可 能 发 生 在 服务 端 内 部 的 持久 化 的 操作 中 。 


4.2.1 消息 集 


为 了 避免 这 些 问 题 ,Kafka 建立 了 消息 集 (message set) 的 概念 ,将 消息 组 织 到 一 起 , 作 
为 处 理 的 单位 。 以 消息 集 为 单位 处 理 消息 , 比 以 单个 消息 为 单位 处 理会 提升 不 少 性 能 。 
producer 把 消息 集 一 块 发 送 给 服务 端 ,而 不 是 一 条 条 地 发 送 ; 服务 端 把 消息 集 一 次 性 追加 
到 日 志文 件 中 ,这 样 减少 了 琐碎 的 1/0 操作 。consumer 也 可 以 一 次 性 请 求 一 个 消息 集 。 

另外 一 个 性 能 优化 是 在 字 节 复制 方面 。 在 低 负载 的 情况 下 这 不 是 问题 ,但 是 在 高 负载 
的 情况 下 它 的 影响 还 是 很 大 的 。 为 了 避免 这 个 问题 ,Kafka 使 用 了 标准 的 二 进 制 消息 格式 ， 
这 个 格式 可 以 在 producer, broker 和 producer 之 间 共 享 而 无 须 做 任何 改动 。 


zero copy 


broker 维护 的 消息 日 志 仅仅 是 一 些 目录 文件 ,消息 集 以 固定 的 格式 写 入 日志 文件 中 。 
这 个 格式 是 producer 和 consumer 共享 的 ,使 Kafka 可 以 一 个 很 重要 的 点 进行 优化 : 消息 在 
网 络 上 的 传递 。 现 代 的 UNIX 操作 系统 提供 了 高 性 能 的 将 数据 从 页 面 缓存 发 送 到 Socket 
的 系统 函数 ,Linux 中 的 这 个 函数 是 sendfile() 。 

为 了 更 好 地 理解 函数 sendfile() 的 好 处 , 先 来 看 一 般 将 数据 从 文件 发 送 到 Socket 的 数 
据 流 向 。 

(1) 操作 系统 把 数据 从 文件 复制 到 内 核 中 的 页 缓存 。 

(2) 应 用 程序 从 页 缓存 把 数据 复制 到 自己 的 内 存 缓存 。 

(3) 应 用 程序 将 数据 写 和 内核 中 的 Socket 缓存 。 

(Ὁ 操作 系统 把 数据 从 Socket 缓存 中 复制 到 网 卡 接口 缓存 ,从 这 里 发 送 到 网 络 。 

这 显然 是 低 效率 的 ,有 4 次 复制 和 两 次 系统 调用 。 函 数 sendfile() 直 接 将 数据 从 页 面 组 
存 发 送 到 网 卡 接口 缓存 ,避免 了 重复 复制 ,大 大 优化 了 性 能 。 

在 一 个 多 consumers 的 场景 里 ,数据 仅仅 被 复制 到 页 面 缓 存 一 次 而 不 是 每 次 消费 消息 
时 都 重复 地 进行 复制 ,使 消息 以 近乎 网 络 带宽 的 速率 发 送出 去 。 这 样 在 磁盘 层面 几乎 看 不 
到 任何 的 读 操作 ,因为 数据 都 是 从 页 面 缓存 直接 发 送 到 网 络 。 





4.2.2 数据 压缩 


很 多 时 候 , 性 能 的 瓶颈 并 非 CPU 或 者 硬盘 ,而 是 网 络 带宽 ,对 于 需要 在 数据 中 心 之 间 
传送 大 量 数据 的 应 用 更 是 如 此 。 用 户 可 以 在 没有 Kafka 支持 的 情况 下 各 自 压缩 自己 的 消 
息 , 但 是 这 将 导致 较 低 的 压缩 率 , 因 为 相 比 于 将 消息 单独 压缩 ,将 大 量 文件 压缩 在 一 起 才能 
起 到 最 好 的 压缩 效果 。 

Kafka 采用 了 端 到 端的 压缩 。 因 为 有 "消息 集 ” 的 概念 ,客户 端的 消息 可 以 一 起 被 压缩 
后 发 送 到 服务 端 ,并 以 压缩 后 的 格式 写 人 日 志文 件 , 以 压缩 的 格式 发 送 到 consumer, iHi ΒΙΛΑ 
producer 发 出 到 consumer 收 到 都 是 压缩 的 ,只 有 在 consumer 使 用 时 才 被 解压 缩 , 所 以 叫 
作 端 到 端的 压缩 。 


43 生产 者 和 消费 者 


4.3.1 Kafka 生产 者 的 消息 发 送 


producer 直接 将 数据 发 送 到 broker 的 Leader( 主 节点 ) ,不 需要 在 多 个 节点 间 进 行 
分 发 。 为 了 帮助 producer 做 到 这 一 点 ,所 有 的 Kafka 节点 都 可 以 及 时 地 告知 : 哪些 节点 
是 活动 的 ,Topic 目标 分 区 的 leader 在 哪儿 。 这 样 producer 就 可 以 直接 将 消息 发 送 到 目 
的 地 。 

客户 端 控制 消息 将 被 分 发 到 哪个 分 区 ? 可 以 通过 负载 均衡 随机 地 选择 ,或 者 使 用 分 区 
PRAE. Kafka 允许 用 户 实现 分 区 函数 ,指定 分 区 的 key( 关 键 字 ) ,将 消息 hash 到 不 同 的 分 区 
上 (当然 有 需要 也 可 以 覆盖 这 个 分 区 函数 自己 实现 逻辑 )。 例 如 ,如 果 指 定 的 key 是 user 
id, 那 么 同一 个 用 户 发 送 的 消息 都 被 发 送 到 同一 个 分 区 上 。 经 过 分 区 之 后 ,consumer 就 可 
以 有 目的 地 消费 某 个 分 区 的 消息 。 

批量 发 送 可 以 有 效 地 提高 发 送 效 率 。Kafka producer 的 异步 发 送 模式 允许 进行 批量 发 
送 , 先 将 消息 缓存 在 内 存 ,然后 一 次 请 求 批量 发 送出 去 。 这 个 策略 可 以 配置 ,可 以 指定 缓存 
的 消息 达到 某 个 量 时 就 发 送出 去 ,或 者 缓存 了 固定 的 时 间 后 就 发 送出 去 (如 100 条 消息 就 发 
送 ,或 者 每 5s 发 送 一 次 ) 。 这 种 策略 将 大 大 减少 服务 端的 L/O 次 数 。 

既然 缓存 是 在 producer 端 进行 的 ,那么 当 producer 崩溃 时 ,这 些 消息 就 会 丢失 。Kafka 
0, 8.1 的 异步 发 送 模式 还 不 支持 回调 ,不 能 在 发 送出 错时 进行 处 理 。Kafka 0. 9 可 能 会 增加 
这 样 的 回调 函数 。 





4.3.2 Kafka consumer 


Kafka consumer 消费 消息 时 ,向 broker 发 出 fetch 请 求 去 消费 特定 分 区 的 消息 。consumer 
指定 消息 在 日 志 中 的 偏 移 量 (offset) ,就 可 以 消费 从 这 个 位 置 开 始 的 消息 。customer 拥有 
offset 的 控制 权 , 可 以 向 后 回 滚 去 重新 消费 之 前 的 消息 ,这 是 很 有 意义 的 。 

Kafka 最 初 考虑 的 问题 是 ,customer 应 该 从 brokers 拉 取 消息 还 是 brokers 将 消息 推送 
到 consumer, 也 就 是 pull 还 是 push。 这 方面 ,Kafka 遵循 了 一 种 大 部 分 消息 系统 共同 的 传 
统 设计 : producer 将 消息 推送 到 broker.consumer M broker 拉 取 消息 。 





一 些 消息 系统 (如 Scribe 和 Apache Flume) 采 用 了 push 模式 ,将 消息 推送 到 下 游 的 
consumer。 这 样 做 有 好 处 ,也 有 坏处 。 由 broker 决定 消息 推送 的 速率 ,对 于 不 同 消费 速率 
的 consumer 就 不 太 好 处 理 了 。 消 息 系统 致力 于 让 consumer 以 最 大 的 速率 消费 消息 ,不 幸 
的 是 ,push 模式 下 , 当 broker 推送 的 速率 远大 于 consumer 消费 的 速率 时 ,consumer 恐怕 就 
要 崩溃 了 。 最 终 ,Kafka 还 是 选取 了 传统 的 pull 模式 。 

pull 模式 的 另外 一 个 好 处 是 consumer 可 以 自主 决定 是 否 批量 地 从 broker 拉 取 数据 。 
push 模式 必须 在 不 知道 下 游 consumer 消费 能 力 和 消费 策略 的 情况 下 决定 是 立即 推送 每 条 
消息 ,还 是 缓存 之 后 批量 推送 。 如 果 为 了 避免 consumer 崩溃 而 采用 较 低 的 推送 速率 ,可 能 
导致 一 次 只 推送 较 少 的 消息 而 造成 浪费 。 在 pull 模式 下 ,consumer 可 以 根据 自己 的 消费 能 
力 决 定 这 些 策略 。 

pull 模式 有 个 缺点 ,如 果 broker 没有 可 供 消 费 的 消息 ,将 导致 consumer 不 断 地 在 循环 
中 轮 询 ,直到 新 消息 到 达 。 为 了 避免 这 一 点 ,Kafka 有 个 参数 ,可 以 让 consumer 阻塞 知道 新 
消息 到 达 。 当 然 , 也 可 以 阻塞 知道 消息 的 数量 ,使 其 达到 某 个 特定 的 量 再 批量 发 送 。 

同样 ,对 消费 消息 状态 的 记录 也 是 很 重要 的 。 

大 部 分 消息 系统 在 broker 端的 维护 消息 中 有 被 消费 的 记录 : 一 个 消息 被 分 发 到 consumer 
后 ,broker 马上 进行 标记 或 者 等 待 customer 的 通知 后 进行 标记 。 这 样 可 以 在 消息 被 消费 后 
立即 删除 以 减少 空间 的 占用 。 

这 样 会 不 会 有 什么 问题 呢 ? 如 果 一 条 消息 发 送出 去 之 后 立即 被 标记 为 消费 过 的 ,一 旦 
consumer 处 理 消 息 失 败 ( 如 程序 崩溃 ) ,消息 就 丢失 了 。 为 了 解决 这 个 问题 ,很 多 消息 系统 
提供 了 另外 一 个 功能 : 当 消 息 被 发 送出 去 之 后 仅仅 被 标记 为 已 发 送 状 态 , 当 接 到 consumer 
已 经 消费 成 功 地 通知 后 才 标 记 为 已 被 消费 的 状态 。 这 虽然 解决 了 消息 丢失 的 问题 ,但 产生 
了 新 问题 。 首 先 , 如 果 consumer 处 理 消息 成 功 了 .但 是 向 broker 发 送 响 应 时 失败 了 ,这 条 
消息 将 被 消费 两 次 。 第 二 个 问题 是 ,broker 必须 维护 每 条 消息 的 状态 ,并 且 每 次 都 要 先 锁 
住 消息 ,然后 更 改 状态 ,再 释放 锁 。 这 样 麻烦 又 来 了 , 且 不 说 要 维护 大 量 的 状态 数据 ,如 
消息 发 送出 去 但 没有 收 到 消费 成 功 的 通知 ,这 条 消息 将 一 直 处 于 被 锁定 的 状态 。Kafka 
采用 了 不 同 的 策略 。Topic 被 分 成 若干 分 区 ,每 个 分 区 在 同一 时 间 只 被 一 个 consumer 消 
费 。 这 意味 着 每 个 分 区 被 消费 的 消息 在 日 志 中 的 位 置 仅仅 是 一 个 简单 的 整数 offset。 这 
样 很 容易 标记 每 个 分 区 的 消费 状态 ,仅仅 需要 一 个 整数 而 已 。 这 样 消 费 状 态 的 跟踪 变 得 
简单 了 。 

这 带 来 了 另外 一 个 好 处 ,consumer 可 以 把 offset 调 成 一 个 过 去 的 值 ,去 重新 消费 过 去 
的 消息 。 这 对 传统 的 消息 系统 来 说 看 起 来 有 些 不 可 思议 ,但 确实 是 非常 有 用 的 , 谁 规定 了 一 
条 消息 只 能 被 消费 一 次 呢 ? consumer 发 现 解析 数据 的 程序 有 bug. EM bug 后 再 来 解析 一 
次 消息 ,看 起 来 是 很 合理 的 。 

高 级 的 数据 持久 化 允许 consumer 每 个 隔 一 段 时 间 批 量 地 将 数据 加 载 到 线 下 系统 中 ， 
例如 Hadoop 或 者 数据 仓库 。 这 种 情况 下 .Hadoop 可 以 将 加 载 任务 分 拆 , 拆 成 每 个 broker, 
Topic 或 每 个 分 区 加 载 一 个 任务 。Hadoop 具有 任务 管理 功能 , 当 一 个 任务 失败 了 可 以 重 
启 , 而 不 用 担心 数据 被 重新 加 载 ,只 要 从 上 次 加 载 的 位 置 开始 。 


44 主 从 同步 


Kafka 允许 Topic 的 分 区 拥有 若干 副本 .这 个 数量 是 可 以 配置 的 ,可 以 为 每 个 Topic 配 
置 副本 的 数量 。Kafka 会 自动 在 每 个 副本 上 备份 数据 ,所 以 当 一 个 节点 损坏 时 数据 依然 是 
可 用 的 。 

Kafka 的 副本 功能 不 是 必需 的 ,可 以 配置 只 有 一 个 副本 ,这 样 相当 于 只 有 一 份 数 据 。 创 
建 副本 的 单位 是 Topic 的 分 区 ,每 个 分 区 都 有 一 个 Leader MERA Followers. Bri fj 
读 写 操作 都 由 Leader 处 理 ,一般 分 区 的 数量 都 比 broker 的 数量 多 得 多 ,各 分 区 的 Leader 均 
名 地 分 布 在 brokers 中 。 所 有 的 Followers 都 复制 Leader 的 日 志 , 日 志 中 的 消息 与 顺序 都 
与 Leader 中 的 一 致 。Followers 像 普通 的 consumer 一 样 从 Leader 那里 拉 取 消息 ,并 保存 
在 自己 的 日 志文 件 中 。 

许多 分 布 式 的 消息 系统 会 自动 地 处 理 失 败 的 请 求 , 它 们 对 一 个 节点 是 否 活着 (alive) 有 
着 清晰 的 定义 。Kafka 判断 一 个 节点 是 否 活着 有 两 个 条 件 : 节点 必须 可 以 维护 和 
Zookeeper 的 连接 ,Zookeeper 通过 心跳 机 制 检 查 每 个 节点 的 连接 。 如 果 节 点 是 Follower. 
它 必须 能 及 时 地 同步 Leader 的 写 操 作 , 延 时 不 能 太 久 。 

准确 地 说 ,符合 以 上 条 件 的 节点 应 该 是 同步 中 的 (in syno) ,而 不 是 模糊 地 说 是 “活着 的 "或 
“RICHI”. Leader 会 追踪 所 有 "同步 中 ”的 节点 ,一旦 一 个 离线 (down) 了 ,或 是 卡 住 了 ,或 是 延 
时 太 久 ,Leader 就 会 把 它 移 除 。 至 于 延 时 多 久 可 以 认为 是 “ 太 久 ”, 由 参数 replica. lag. max. 
messages 决定 ; 怎样 可 以 认为 是 卡 住 了 ,由 参数 replica. lag. time. max. ms 决定 。 

只 有 当 消 息 被 所 有 的 副本 加 入 日 志 中 时 , 才 是 committed( 被 提交 )。 只 有 committed 
的 消息 才 会 发 送 给 consumer ,这样 就 不 用 担心 一 旦 Leader down ili B Zr X. producer 也 
可 以 选择 是 否 等 待 消息 被 提交 的 通知 ,这 是 由 参数 request. required. acks 决定 的 。Kafka 
保证 只 要 有 一 个 “同步 中 ”的 节点 ,committed 的 消息 就 不 会 丢失 。 

Kafka 的 核心 是 日 志文 件 , 日 志文 件 在 集群 中 的 同步 是 分 布 式 数据 系统 基础 的 要 素 。 

如 果 Leader 永远 不 会 down. 就 不 需要 Followers 了。 一旦 Leader down, 需 要 在 
Followers 中 选择 一 个 新 的 Leader, 但 是 followers 本 身 有 可 能 延 时 太 久 或 者 crash, 所 以 必 
须 选 择 高 质量 的 Follower 作为 Leader。 必 须 保 证 ,一 旦 一 个 消息 被 提交 了 ,但 是 Leader 
down, 新 选 出 的 Leader 必须 可 以 提供 这 条 消息 。 大 部 分 的 分 布 式 系统 采用 了 多 数 投票 法 
则 选择 新 的 Leader。 对 于 多 数 投票 法 则 ,就 是 根据 所 有 副本 节点 的 状况 动态 地 选择 最 适合 
的 作为 Leader。Kafka 并 不 使 用 这 种 方法 。 

Kafka 动态 维护 了 一 个 同步 状态 的 副本 的 集合 (a set of in-sync replicas, ISR) ,在 这 个 
集合 中 的 节点 都 是 和 Leader 保持 高 度 一 致 的 ,任何 一 条 消息 必须 被 这 个 集合 中 的 每 个 节点 
读 取 并 追加 到 日 志 中 , 才 会 通知 外 部 这 个 消息 已 经 被 提交 了 。 因 此 ,这 个 集合 中 的 任何 一 个 
节点 随时 可 以 被 选 为 Leader。ISR 在 Zookeeper 中 维护 。ISR 中 有 f 十 1 个 节点 ,可 以 允许 
在 f 个 节点 down 的 情况 下 不 会 丢失 消息 ,并 正常 提供 服务 。ISR 的 成 员 是 动态 的 ,如 果 一 
个 节点 被 淘汰 了 , 当 它 重新 达到 “同步 中 ”的 状态 时 . 它 可 以 重新 加 入 ISR。 这 种 Leader 的 
选择 方式 是 非常 快速 的 .适合 Kafka 的 应 用 场景 。 

一 个 最 坏 的 想法 : 如 果 所 有 节点 都 down 怎么 办 ? Kafka 对 数据 不 会 丢失 的 保证 ,是 基 





于 至 少 一 个 节点 是 存活 的 ,一 旦 所 有 节点 都 down, 这 就 不 能 保证 了 。 

实际 应 用 中 , 当 所 有 的 副本 都 down 时 ,必须 及 时 做 出 反应 ,可 以 有 以 下 两 种 选择 。 

(1) 等 待 ISR 中 的 任何 一 个 节点 恢复 并 担任 Leader。 

(2) 选择 所 有 节点 中 (不 只 是 ISR) 第 一 个 恢复 的 节点 作为 Leader。 

这 是 一 个 在 可 用 性 和 连续 性 之 间 的 权衡 。 如 果 等 待 ISR 中 的 节点 恢复 ,一 旦 ISR 中 的 
节点 活 不 起 来 或 者 数据 都 死 了 , 那 集群 就 永远 恢复 不 了 。 如 果 等 待 ISR 意外 的 节点 恢复 ， 
这 个 节点 的 数据 就 会 被 作为 线 上 数据 ,有 可 能 和 真实 的 数据 有 所 出 入 ,因为 有 些 数 据 可 能 还 
没 同 步 到 。Kafka 目前 选择 了 第 二 种 策略 ,在 未 来 的 版 本 中 将 使 这 个 策略 的 选择 可 配置 ,以 
便 根据 场景 灵活 地 选择 。 

这 种 窘境 不 只 Kafka 会 遇 到 ,几乎 所 有 的 分 布 式 数据 系统 都 会 遇 到 。 

以 上 仅仅 以 一 个 Topic 分 区 为 例子 进行 了 讨论 ,实际 上 一 个 Kafka 将 会 管理 成 千 上 万 
的 Topic K. Kafka 尽量 使 所 有 分 区 均匀 地 分 布 到 集群 所 有 的 节点 上 ,而 不 是 集中 在 某 
些 节 点 上 ,另外 主 从 关系 也 尽量 均衡 ,这 样 每 个 节点 都 会 担任 一 定 比 例 的 分 区 的 Leader. 

优化 leader 的 选择 过 程 也 是 很 重要 的 , 它 决定 了 系统 发 生 故 障 时 的 空 窗 期 有 多 久 。 
Kafka 选择 一 个 节点 作为 controller( 控 制 器 ), 当 发 现 有 节点 down 时 , 它 负责 在 游泳 分 区 的 
所 有 节点 中 选择 新 的 Leader, 使 Kafka 可 以 批量 、 高 效 地 管理 所 有 分 区 节点 的 主 从 关系 。 
如 果 controller down, 活 着 的 节点 中 的 一 个 会 被 切换 为 新 的 controller, 


45 客户 端 API 


4.5.1 Kafka producer API 


procuder API 有 两 种 : kafka. producer. SyncProducer 和 kafka. producer. async. AsyncProducer, 
它们 都 实现 了 同一 个 接口 。 
class Producer { 
/* 将 消息 发 送 到 指定 分 区 */ 
publicvoid send (kafka.javaapi.producer.ProducerData<K,V> producerData); 
/* 批量 发 送 一 批 消息 * / 
publicvoid send (java. util. List < kafka. javaapi. producer. ProducerData < K, V > > 
producerData) ; 
/* 关闭 producer * / 
publicvoid close(); 
) 


producer API 提供 了 以 下 功能 。 

(1) 可 以 将 多 个 消息 缓存 到 本 地 队列 中 ,然后 异步 地 批量 发 送 到 broker, 通 过 参数 
producer. type=asyne 做 到 。 缓 存 的 大 小 可 以 通过 一 些 参数 指定 : queue. time 和 batch. size. 
一 个 后 台 线 程 (kafka. producer. async. ProducerSendThread) 从 队列 中 取出 数据 ,并 让 
kafka. producer. EventHandler 将 消息 发 送 到 broker, 也 可 以 通过 参数 event. handler 定制 
handler, Æ producer 端 处 理 数据 的 不 同 阶 段 注册 处 理 器 ,如 可 以 对 这 一 过 程 进行 日 志 追 踪 ， 
或 进行 一 些 监 控 。 只 需 实现 kafka. producer. async. CallbackHandler 接口 ,并 在 callback. 


handler 中 配置 。 
(2) 自己 编写 Encoder 来 序列 化 消息 ,只 需 实 现下 面 这 个 接口 。 默 认 的 Encoder 是 


kafka. serializer. DefaultEncoder。 


interface Encoder« T> { 
public Message toMessage (T data); 
} 


(3) 提供 了 基于 Zookeeper 的 broker 自动 感知 能 力 , 可 以 通过 参数 zk. connect 实现 。 
如 果 不 使 用 Zookeeper, 也 可 以 使 用 broker. list 参数 指定 一 个 静态 的 brokers 列表 。 这 样 消 
息 将 被 随机 地 发 送 到 一 个 broker 上 ,一 旦 选中 的 broker 失败 了 ,消息 发 送 也 就 失败 了 。 

(4) 通过 分 区 函数 的 kafka. producer. Partitioner 类 对 消息 分 区 。 


interface Partitioner<T> { 
int partition(T key, int numPartitions); 
) 


(5) 分 区 函数 有 两 个 参数 : key 和 可 用 的 分 区 数量 。 从 分 区 列表 中 选择 一 个 分 区 ,并 返 
回 id。 默 认 的 分 区 策略 是 hash(key) % numPartitions, 如 果 key 是 null, 就 随机 地 选择 一 
个 。 可 以 通过 参数 partitioner. class 定制 分 区 函数 。 


4.5.2 Kafka consumer API 


consumer API 有 低级 别 和 高 级 别 两 个 级 别 。 

低级 别 的 和 一 个 指定 的 broker 保持 连接 ,并 在 接收 完 消 息 后 关闭 连接 。 这 个 级 别 是 无 
状态 的 ,每 次 读 取消 息 都 带 着 offset. 

高 级 别 的 API 隐藏 了 和 brokers 连接 的 细节 ,在 不 必 关 心服 务 端 架构 的 情况 下 和 服务 
端 通信 ,还 可 以 自己 维护 消费 状态 ,并 通过 一 些 条 件 指定 订阅 特定 的 Topic, 如 白 名 单 、 黑 名 
单 或 者 正则 表达 式 。 

1. 低级 别 的 API 


class SimpleConsumer ( 

/* 向 一 个 broker 发 送 读 取 请 求 并 得 到 消息 集 * / 

public ByteBufferMessageSet fetch (FetchRequest request); 

/* 向 一 个 broker 发 送 读 取 请 求 并 得 到 一 个 响应 集 */ 

public MultiFetchResponse multifetch (List< FetchRequest> fetches); 

/*# 

* 得 到 指定 时 间 之 前 的 offsets 

* 返回 值 是 offsets 列表 ,以 倒序 排序 

* @param time: 时 间 ,毫秒 

+ 如 果 指 定 为 offsetRequest$ .MODULES .LATIEST TIME(), 得 到 最 新 的 offset 

* 如 果 指 定 为 offsetRequest$ .MODULES .EARLIEST_TIME () ,得 到 最 初 的 offset 

&f 

publiclond|] getOffsetsBefore (String topic,int partition, long time,int maxNumOffsets); 
} 


低级 别 的 API 是 高 级 别 API 实现 的 基础 ,也 是 为 了 一 些 对 维持 消费 状态 有 特殊 需求 的 
场景 ,如 Hadoop consumer 这 样 的 离线 consumer. 





2, 高 级 别 的 API 


/* 创建 连接 */ 
ConsumerConnector connector = Consumer.create (consumerConfig); 
interface ConsumerConnector ( 

/** 

* 这 个 方法 可 以 得 到 一 个 流 的 列表 ,每 个 流 都 是 MessageAndMetadata 的 迭代 ,通过 

* MessageAndMetadata 可 以 拿 到 消息 和 其 他 的 元 数据 (目前 之 后 topic) 

* Input: a map of <topic，# streams» 

* Output: a map of «topic, list of message streams» 

Ky 

public Map < String, List < KafkaStream > > createMessageStreams (Map < String, Int > 
topicCountMap) ; 

[** 

* 也 可 以 得 到 一 个 流 的 列表 , 它 包含 符合 MM B (i f 

* 一 个 TopicFilter 是 一 个 封装 了 白 名 单 或 黑 名 单 的 正则 表达 式 

wp 

public List<KafkaStream> createMessageStreamsByFilter ( 
TopicFilter topicFilter, int numStreams); 

/* 提交 目前 消费 到 的 offset * / 

public commitOffsets () 

/* 关闭 连接 */ 

public shutdown () 
} 


这 个 API 围绕 由 KafkaStream 实现 的 迭代 器 展开 ,每 个 流 代 表 一 系列 从 一 个 或 多 个 分 
区 和 多 个 broker 上 汇聚 来 的 消息 ,每 个 流 由 一 个 线程 处 理 ,所 以 客户 端 可 以 在 创建 时 通过 
参数 指定 想 要 几 个 流 。 一 个 流 是 多 个 分 区 、 多 个 broker 的 合并 ,但 是 每 个 分 区 的 消息 只 会 
流向 一 个 流 。 

每 调用 一 次 createMessageStreams 都 会 将 consumer 注册 到 Topic 上 ,这 样 consumer 
和 brokers 之 间 的 负载 均衡 就 会 得 到 调整 。API 鼓励 每 次 调用 创建 更 多 的 Topic 流 以 减少 
这 种 调整 。createMessageStreamsByFilter 方 法 注册 监听 可 以 感知 新 的 符合 filter 的 Topic 。 


46 消息 和 日 志 


消息 由 一 个 固定 长 度 的 头 部 和 可 变 长 度 的 字 节 数组 组 成 。 头 部 包含 一 个 版 本 号 和 
CRC32 校 验 码 。 


/κκ 


* RA NF IUIS ae TF 


* 如 果 版 本 号 是 0 


* 


* 1.1 字 节 的 magic tid 


* 


* 2.4 字 节 的 CRC32 校 验 码 
* 


* 3.N-5 字 节 的 具体 信息 


实时 计算 与 应 用 


* 


* 如 果 版 本 号 是 1 


* 


* 1.1 字 节 的 magic 标记 
* 


* 2.1 字 节 的 参数 允许 标注 一 些 附加 的 信息 比如 是 否 压缩 了 ,解码 类 型 等 


* 


* 3.4 字 节 的 CRC32 校 验 码 


* 


* 4.N-6 字 节 的 具体 信息 


ie 

一 个 叫 作 my. topic 的 日 志 且 有 两 个 分 区 的 Topic , 它 的 日 志 由 两 个 文件 夹 组 成 : my. topic 0 
和 my topic 1。 每 个 文件 夹 里 放 着 具体 的 数据 文件 ,每 个 数据 文件 都 是 一 系列 的 日 志 实 
体 ,每 个 日 志 实 体 有 一 个 4 字 节 标注 消息 的 长 度 整数 N, 后 边 跟着 N 字 节 的 消息 。 每 个 消 
息 都 可 以 由 一 个 64 位 的 整数 offset 标注 ,offset 标注 了 这 条 消息 在 发 送 到 这 个 分 区 的 消息 
流 中 的 起 始 位 置 。 每 个 日 志文 件 的 名 称 都 是 这 个 文件 第 一 条 日 志 的 offset, 所 以 第 一 个 日 
志文 件 的 名 字 就 是 00000000000. kafka。 相 邻 的 两 个 文件 名 字 的 差别 就 是 一 个 数字 S.S 的 
最 大 值 就 是 配置 文件 中 指定 的 日 志文 件 的 最 大 容量 。 

消息 的 格式 由 一 个 统一 的 接口 维护 ,所 以 消息 可 以 在 producer, broker 和 consumer 之 
间 无 缝 地 传递 。 存 储 在 硬盘 上 的 消息 格式 如 下 所 示 。 

CD 消息 长 度 : 4BCvalue 12-4470; 

(2) 版 本 号 : 1B; 

(3) CRC 校 验 码 : 4B; 

(4) 具体 的 消息 : nB. 

写 操作 消息 被 不 断 地 追加 到 最 后 一 个 日 志 的 末尾 ,当日 志 的 大 小 达到 一 个 指定 的 值 时 
会 产生 一 个 新 的 文件 ,如 图 4-1 所 示 。 对 于 写 操作 有 两 个 参数 : 一 个 规定 了 消息 的 数量 , 达 
到 这 个 值 时 必须 将 数据 刷新 到 硬盘 上 ; 另 一 个 规定 了 刷新 到 硬盘 的 时 间 间 隔 , 对 数据 的 持 
久 性 作 保证 ,在 系统 崩溃 时 只 会 丢失 一 定数 量 的 消息 或 者 一 个 时 间 段 的 消息 。 

读 操作 需要 两 个 参数 . 64 位 的 offset 和 最 大 读 取 量 。 最 大 读 取 量 通常 比 单个 消息 的 大 
小 要 大 ,但 在 一 些 个 别 消息 比较 大 的 情况 下 ,最 大 读 取 量 会 小 于 单个 消息 的 大 小 。 这 种 情况 
下 , 读 操作 会 不 断 重 试 ,每 次 重 试 都 会 将 读 取 量 加 倍 , 直 到 读 取 到 一 个 完整 的 消息 。 可 以 配 
置 单 个 消息 的 最 大 值 , 这 样 服务 器 会 拒绝 大 小 超过 这 个 值 的 消息 。 也 可 以 给 客户 端 指定 一 
个 尝试 读 取 的 最 大 上 限 ,避免 为 了 读 到 一 个 完整 的 消息 而 无 限 次 地 重 试 。 

在 实际 执行 读 取 操 纵 时 ,首先 需要 定位 数据 所 在 的 日 志文 件 , 然 后 根据 offset 计算 出 在 
这 个 日 志 中 的 offset( 前 面 的 offset 是 整个 分 区 的 offset) ,再 从 这 个 offset 的 位 置 进行 读 取 。 
定位 操作 是 由 二 分 查找 法 完成 的 ,Kafka 在 内 存 中 为 每 个 文件 维护 了 offset 的 范围 。 

下 面 是 发 送 给 consumer 的 结果 的 格式 。 


MessageSetSend (fetch result) 


total length : 4 bytes 


error code : 2 bytes 
message 1 : x bytes 
message n : x bytes 


MultiMessageSetSend (multiFetch result) 


total length : 4 bytes 
error code : 2 bytes 
messageSetSend 1 


messageSetSend n 


Deletes 一 一 一 一 一 


Reads 一 一 一 


LL... Consistent Views — 7] 


Appends 一 一 一 一 一 


日 志 管理 器 允许 定制 删除 策略 。 目 前 的 策略 是 删除 修改 时 间 在 N 天 之 前 的 日 志 ( 按 时 
间 删 除 ); 也 可 以 使 用 另外 一 个 策略 : 保留 最 后 的 NGB 数据 的 策略 ( 按 大 小 删除 ) 。 为 了 避 
免 在 删除 时 阻塞 读 操作 ,采用 了 copy-on-write 形式 的 实现 ,删除 操作 进行 时 , 读 取 操作 的 二 
分 查找 功能 实际 是 在 一 个 静态 的 快照 副本 上 进行 的 ,这 类 似 于 Java 的 CopyOnWriteArrayList。 
日 志文 件 有 一 个 可 配置 的 参数 M. 缓 存 超过 这 个 数量 的 消息 将 被 强行 刷新 到 硬盘 。 一 
个 日 志 矫 正 线 程 将 循环 检查 最 新 的 日 志文 件 中 的 消息 ,确认 每 个 消息 都 是 合法 的 。 合 法 的 
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图 4-1 日 志文 件 示 意图 




















标准 为 : 所 有 文件 的 大 小 和 最 大 的 offset 小 于 日 志文 件 的 大 小 ,并 且 消 息 的 CRC32 校 验 码 


与 存储 在 消息 实体 中 的 校 验 码 一 致 。 如 果 某 个 offset 发 现 不 合法 的 消息 ,从 这 个 offset 到 


下 一 个 合法 的 offset 之 间 的 内 容 将 被 移 除 。 


有 两 种 情况 必须 考虑 。 





(1) 当 发 生 崩 溃 时 有 些 数据 块 未 能 写 入 。 

(2) 写 人 了 一 些 空白 数据 块 。 

第 二 种 情况 的 原因 是 ,对 于 每 个 文件 ,操作 系统 都 有 一 个 inodeCinode 是 指 在 许多 “类 
UNIX 文件 系统 ”中 的 一 种 数据 结构 。 每 个 inode 保存 了 文件 系统 中 的 一 个 文件 系统 对 象 ， 
包括 文件 .目录 、 大 小 \ 设 备 文件 、socket、 管 道 等 ), 但 无 法 保证 更 新 inode 和 写 人 数据 的 顺 
序 。 当 inode 保存 的 大 小 信息 被 更 新 了 ,但 写 和 人 数据 时 发 生 了 崩溃 ,就 产生 了 空白 数据 块 。 
CRC 校 验 码 可 以 检查 这 些 块 并 移 除 ,当然 因为 骨 溃 而 未 写 。 


本 章 小 结 


本 章 从 生产 者 和 消费 者 间 信 息 传递 的 角度 出 发 ,对 Kafka 系统 的 机 制 进 行 介 绍 。 主 要 
包括 Kafka 消息 的 传送 事务 定义 .性 能 优化 以 及 主 从 同步 。 最 后 介绍 了 Kafka 生产 者 消费 
者 API 以 及 消息 和 日 志 的 概念 ,并 对 Kafka 系统 做 了 全 面 的 介绍 。 


oom 


(1) Kafka 有 哪些 角色 ? 

(2) partition 的 作用 是 什么 ? 设计 的 目的 及 根本 原因 是 什么 ? 

(3) offset 的 作用 是 什么 ? 

(4) 消息 系统 有 哪 两 类 ? Kafka 中 几乎 不 允许 对 消息 进行 “随机 读 写 ” 的 原因 是 什么 ? 
(5) 什么 是 Topic 消息 广播 和 单 播 ? 

(6) Kafka 的 元 数据 和 Topic 是 否 都 存储 在 Zookeeper 中 ? 

(7) Zookeeper 在 Kafka 中 的 作用 是 什么 ? 

(8) 集群 consumer 和 producer 的 状态 信息 是 如 何 保存 的 ? 


Zookeeper 开 发 


5.1 Zookeeper 的 来 源 


随 着 信息 化 水 平 的 不 断 提 高 ,企业 级 系统 变 得 越 来 越 庞大 ,性 能 急剧 下 降 ,客户 抱怨 频 
频 。 拆 分 系统 是 目前 可 选择 的 解决 系统 可 伸缩 性 和 性 能 问题 的 唯一 行 之 有 效 的 方法 ,但 是 
拆 分 系统 同时 也 带 来 了 系统 的 复杂 性 一 一 各 子 系统 不 是 孤立 存在 的 ,它们 彼此 之 间 需 要 协 
作 和 交互 ,这 就 是 常 说 的 分 布 式 系统 。 各 个 子 系统 就 像 动物 园 里 的 动物 ,为 了 使 各 个 子 系统 
能 正常 为 用 户 提供 统一 的 服务 ,必须 用 一 种 机 制 来 进行 协调 ,这 就 是 Zookeeper。 

Zookeeper 是 一 个 为 分 布 式 应 用 提供 一 致 性 服务 的 软件 , 它 是 开源 的 Hadoop 项 目 中 的 
一 个 子 项 目 , 并 且 是 根据 Google 发 表 的 The Chubby lock service for loosely-coupled distributed 
systems 论文 来 实现 的 ,其 中 比较 重要 的 是 一 致 性 算法 。 

1. Zookeeper 分 布 式 协调 系统 

Zookeeper 是 为 分 布 式 应 用 程序 提供 高 性 能 协调 服务 的 工具 集合 ,也 是 Google 的 一 个 
Chubby 开源 实现 ,是 Hadoop 的 分 布 式 协调 服务 。 它 包含 一 个 简单 的 原 语 集 , 分 布 式 应 用 
程序 可 以 基于 它 实 现 配 置 维护 、 命 名 服务 、 分 布 式 同步 ,组 服务 等 。Zookeeper 可 以 用 于 保 
证 在 ZK 集群 之 间 的 数据 的 事务 一 致 性 。 其 中 ,Zookeeper 提供 通用 的 分 布 式 锁 服务 ,用 协 
调 分布 式 应 用 。 

Zookeeper 作为 Hadoop 项 目 中 的 一 个 子 项 目 . 是 Hadoop 集群 管理 的 一 个 必 不 可 少 的 
模块 , 它 主 要 用 于 解决 分 布 式 应 用 中 经 常 遇 到 的 数据 管理 问题 ,如 集群 管理 .统一 命名 服务 、 
分 布 式 配置 管理 .分 布 式 消息 队列 、 分 布 式 锁 、 分 布 式 协调 等 。 同 时 , Zookeeper 也 应 用 于 
Storm 中 , 它 负 责 Storm 集群 中 的 nimbus 与 supervisor 的 状态 维护 。 

Zookeeper 提供 了 一 套 很 好 的 分 布 式 集群 管理 的 机 制 , 即 这 种 基于 层次 型 的 目录 树 的 
数据 结构 ,并 对 树 中 的 节点 进行 有 效 管理 ,从 而 可 以 设计 出 多 种 多 样 的 分 布 式 的 数据 管理 
模型 。 

Zookeeper 是 一 种 高 性 能 、 可 扩展 的 服务 。Zookeeper 的 读 写 速度 非常 快 ,并 且 读 的 速 
度 要 比 写 的 速度 更 快 。 另 外 ,在 进行 读 操 作 时 ,Zookeeper 依然 能 够 为 旧 的 数据 提供 服务 。 
这 些 都 是 由 Zookeeper 所 提供 的 一 致 性 保证 . 它 具 有 如 下 特点 。 

(1) 顺序 一 致 性 : 客户 端的 更 新 顺序 与 它们 被 发 送 的 顺序 相 一 致 。 

(2) 原子 性 : 更 新 操作 要 么 成 功 ,要 么 失败 ,没有 第 三 种 结果 。 

(9) 单 系统 镜像 : 无 论 客 户 端 连接 到 哪 一 个 服务 器 ,客户 端 将 看 到 相同 的 Zookeeper 








视图 。 

(4) 可 靠 性 : 一 旦 一 个 更 新 操作 被 应 用 :那么 在 客户 端 再 次 更 新 它 之 前 , 它 的 值 将 不 会 
改变 。 这 个 保证 将 会 产生 下 面 两 种 结果 。 

CD 如 果 客 户 端 成 功 地 获得 了 正确 的 返回 代码 ,那么 说 明 更 新 已 经 成 功 ; 如 果 不 能 够 获 
得 返回 代码 (由 于 通信 错误 .超时 等 ) ,那么 客户 端 将 不 知道 更 新 操作 是 否 生效 。 

ὢ 当 从 故障 恢复 时 ,任何 客户 端 能 够 看 到 的 执行 成 功 的 更 新 操作 将 不 会 被 回 滚 。 

(5) 实时 性 : 在 特定 的 一 段 时 间 内 ,客户 端 看 到 的 系统 需要 被 保证 是 实时 的 (在 十 几 秒 
时 间 里 )。 在 此 时 间 段 内 ,任何 系统 的 改变 将 被 客户 端 看 到 ,或 者 被 客户 端 侦 测 到 。 

2. 分 布 式 协作 的 难点 

1) 缺乏 全 局 时 钟 

在 单机 系统 中 ,程序 以 这 个 单机 本 身 的 时 钟 为 准 , 控 制 时 序 比 较 容 易 。 在 分 布 式 系 统 
中 ,每 个 节点 都 有 自己 的 时 钟 ,在 通过 相互 发 送信 息 进行 协调 时 ,如果 仍然 依赖 时 序 ,就 会 相 
对 难处 理 。 

很 多 时 候 使 用 时 钟 要 区 分 两 个 动作 的 顺序 ,而 不 是 一 定 要 知道 准确 的 时 间 ,所 以 可 以 把 
这 个 工作 交 给 一 个 单独 的 集群 来 完成 ,通过 这 个 集群 来 区 分 多 个 动作 的 顺序 。 

在 单机 系统 中 ,多 线程 和 多 进程 中 使 用 的 锁 , 到 了 分 布 式 环境 中 也 需要 有 相应 的 办 法 来 
处 理 。 

2) 面 对 故 障 独立 性 

对 单机 系统 来 说 ,如 不 使 用 多 进程 方式 ,基本 上 不 会 遇 到 独立 的 故障 。 如 果 是 机 器 问 
题 ,OS 问题 或 者 程序 自身 的 问题 ,结果 通常 是 程序 整体 不 能 用 了 ,不 会 出 现 一 些 模块 不 可 
用 , 另 一 些 模块 可 用 的 情况 。 

在 分 布 式 环境 中 ， ,,.,.,.» 全 部 坏 掉 的 概率 很 小 ,但 是 会 经 常 
出 现 一 部 分 节点 /模块 有 问题 , 另 一 部 分 正常 运 这 种 现象 叫 作 故障 独立 性 ,必须 找到 解 
决 故障 独立 性 的 办 法 。 

3) 处 理 单 点 故障 

在 整个 分 布 式 系统 中 ,如 果 某 个 功能 只 有 某 台 单 机 在 支撑 ,那么 这 个 节点 称 为 单 点 ,其 
发 生 的 故障 称 为 单 点 故障 ,也 就 是 SPoF(Single Points of Failure) 。 必 须 在 分 布 式 系统 中 尽 
量 避 免 出 现 单 点 ,尽量 保证 所 有 的 功能 都 是 由 集群 完成 的 。 如 果 不 能 把 单机 实现 为 集群 , 那 
么 应 做 好 以 下 三 点 。 

(1) 尽量 保证 功能 都 是 由 集群 完成 的 。 

(2) 给 这 个 单 点 做 好 备份 ,尽量 做 到 自动 恢复 ,减少 恢复 需要 的 时 间 。 

(3) 缩小 单 点 故障 的 影响 范围 (例如 ,将 原来 的 一 个 数据 库 拆 为 两 个 数据 库 , 单 个 问题 
就 不 会 影响 全 部 )。 

在 分 布 式 计算 领域 有 一 个 非常 著名 的 FLP(Fischer.Lynch,Patterson) 定 律 : 假设 有 一 
个 分 布 式 的 配置 信息 发 生 了 改变 ,这 个 配置 信息 仅仅 只 有 一 个 比特 ,一 旦 所 有 运行 中 的 进程 
对 配置 位 的 值 达成 一 致 ,应 用 中 的 进程 就 可 以 启动 。 这 个 定律 证 明了 在 异步 通信 的 分 布 式 
系统 中 ,进程 崩溃 ,所 有 进程 可 能 无 法 在 这 个 比特 位 的 配置 达成 一 致 。 此 外 ,还 有 类 似 的 
CAP(CConsistency,Availability,Partition-tolerance) 定 律 : 当 设计 一 个 分 布 式 系统 时 ,往往 
希望 这 三 种 属性 全 部 满足 ,但 没有 系统 可 以 同时 满足 三 种 属性 。 





因此 , Zookeeper 的 设计 应 尽 可 能 满足 一 致 性 和 可 用 性 。 当 然 , 在 发 生 网 络 分 区 时 
Zookeeper 只 提供 了 只 读 能 力 。 


5.2 Zookeeper 基础 


5.2.1 基本 概念 


很 多 用 于 协作 的 原 语 常常 在 应 用 之 间 共 享 , 例 如 分 布 式 锁 机 制 组 成 了 一 个 重要 的 原 语 ， 
同时 暴露 出 create acquire 和 release 三 个 API。 然 而 ,这 种 设计 存在 重大 缺陷 ,这 种 方式 实 
现 原 语 的 服务 使 应 用 丧失 了 灵活 性 。 

因此 ,Zookeeper 并 不 直接 暴露 原 语 ,取而代之 , 它 暴 露 了 由 一 小 部 分 调用 方法 组 成 的 
类 似 文件 系统 的 API, 以 便 允 许 应 用 实现 自己 的 原 语 。 通 常 使 用 菜谱 (recipes) 来 表示 这 些 
原 语 的 实现 。 菜 谱 包 括 Zookeeper 操作 和 维护 一 个 小 型 的 数据 节点 ,这 些 节点 被 称 为 
znode, Zookeeper 数据 模型 采用 类 似 于 文件 系统 的 层级 树 状 结构 进行 管理 ,其 结构 如 图 5-1 


所 示 。 
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图 5-1 层级 树 状 结构 


在 Zookeeper 中 的 每 个 节点 (znode) 有 一 个 唯一 的 路 径 标识 ,如 /SERVER2 节点 的 标 
识 就 为 /APP3/SERVER2 。 

l. znode 类 型 

新 建 znode 时 ,需要 指定 该 节点 的 类 型 ,不 同类 型 决定 了 znode 节点 的 行为 方式 。 其 类 
型 分 为 持久 (persistent) 节 点 和 临时 (ephemeral) 节 点 。 

持久 的 znode 只 能 通过 调用 delete 来 进行 删除 。 临 时 的 znode 与 之 相反 , 当 创 建 该 节 
点 的 客户 端 崩 溃 或 关闭 与 Zookeeper 的 连接 时 ,整个 节点 就 会 被 删除 。 通 过 -e 参数 创建 临 
时 节点 。Zookeeper 的 客户 端 和 服务 器 通信 采用 长 连接 方式 ,每 个 客户 端 和 服务 器 通过 心 
跳 来 保持 连接 ,这 个 连接 状态 称 为 session。 如 果 znode 是 临时 节点 ,这 个 session 失效 ， 
znode 也 就 删除 了 。 

znode 除了 有 持久 节点 和 临时 节点 外 ,还 有 一 种 有 序 (sequential) 节 点 状态 。 当 创建 
znode 时 ,用 户 可 以 请 求 在 Zookeeper 的 路 径 结尾 添加 一 个 递增 的 计数 。 这 个 计数 对 此 节点 
的 父 节点 来 说 是 唯一 的 , 它 的 格式 为 *%10d”(10 位 数字 ,没有 数值 的 数位 用 0 补充 ,例如 
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0000000001) 。 当 计数 值 大 于 2? —1 时 ,计数 器 将 溢出 。 

2. 通知 机 制 

Zookeeper 通常 以 远程 服务 的 方式 被 访问 。 如 果 每 次 访问 znode 时 ,客户 端 都 需要 获得 
节点 中 的 内 容 , 这 样 代 价 太 大 了 。 

为 了 替换 客户 端的 轮 询 ,Zookeeper 选择 了 基于 通知 的 机 制 : 客户 端 向 Zookeeper 注册 
需要 接收 通知 的 znode, 通 过 对 znode 设置 监视 点 (watch) 来 接收 通知 。 监 视点 是 一 个 单词 
触发 的 操作 , 即 监视 点 会 触发 一 个 通知 。 为 了 接收 多 个 通知 ,客户 端 必须 在 每 次 通知 后 设置 
一 个 新 的 监视 点 。 

通知 机 制 阻止 了 客户 端 所 观察 的 更 新 顺序 ,虽然 使 Zookeeper 的 状态 变化 传递 给 客户 
端 较 慢 , 但 是 保障 了 客户 端 以 全 局 的 顺序 来 观察 Zookeeper 的 状态 ,对 于 Zookeeper 有 着 极 
为 重要 的 意义 。 

znode 中 还 有 一 个 极为 重要 的 版 本 号 属性 。 对 节点 的 每 一 个 操作 ,都 会 使 这 个 节点 的 
版 本 号 增加 。 每 个 节点 维护 着 三 个 版 本 号 ,分 别 是 Version( 节 点 数据 版 本 号 )、Cversion( 子 
节点 版 本 号 ) 和 Aversion( 节 点 所 拥有 的 ACL 版 本 号 )。 

3. Leader 选举 

Zookeeper 需要 在 所 有 的 服务 器 中 选举 出 一 个 Leader, 然 后 让 这 个 Leader 来 负责 管理 
集群 。 此 时 ,集群 中 的 其 他 服务 器 则 成 为 此 Leader 的 Follower, “4 Leader 有 故障 时 ,需要 
Zookeeper 能 够 快速 地 在 Follower 中 选举 出 下 一 个 Leader。 这 就 是 Zookeeper 的 Leader 机 制 。 

在 Zookeeper 中 ,为 了 避免 从 众 效应 的 发 生 , 采 取 此 种 方法 : 每 一 个 Follower 都 对 
Follower 集群 中 对 应 的 比 自己 节点 序号 小 一 号 的 节点 (也 就 是 所 有 序号 比 自己 小 的 节点 中 
序号 最 大 的 节点 ) 设 置 一 个 watch。 只 有 当 Follower 所 设置 的 watch 被 触发 时 , 它 才 进行 
Leader 选举 操作 ,一 般 情况 下 它 将 成 为 集群 中 的 下 一 个 Leader。 很 明显 ,此 Leader 选举 操 
作 的 速度 是 很 快 的 。 因 为 ,每 一 次 Leader 选举 几乎 只 涉及 单个 Follower 的 操作 。 


5.2.2 Zookeeper 架构 


Zookeeper 服务 器 端 运行 于 两 种 模式 : 独立 模式 (standalone) 和 仲裁 模式 (quorum)。 
独立 模式 与 其 术语 所 描述 的 类 仅 有 一 个 单独 的 服务 器 ,Zookeeper 状态 无 法 复制 。 在 仲裁 



















































































模式 下 , 则 有 一 组 的 Zookeeper 服务 器 , 称 为 Zookeeper 集合 .它们 可 以 进行 状态 复制 ,并 且 
同时 响应 ,都 服务 于 客户 端的 请 求 ,如 图 5-2 所 示 。 
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Application Process Client Library Server 
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图 5-2 Zookeeper 架构 总 览 


Zookeeper 本 质 上 是 一 个 分 布 式 的 小 文件 存储 系统 。 原 本 是 Apache Hadoop 的 一 
个 组 件 ,现在 被 拆 分 为 一 个 Hadoop 的 独立 子 项 目 ,在 HBaseCHadoop 的 另外 一 个 被 拆 
分 出 来 的 子 项 目 ,用 于 分 布 式 环境 下 的 超大 数据 量 的 DBMS) 中 也 用 到 了 Zookeeper 
集群 。 

Hadoop 使 用 Zookeeper 的 事件 处 理 确保 整个 集群 只 有 一 个 NameNode 存储 配置 信 
息 等 。 
HBase 使 用 Zookeeper 的 事件 处 理 确保 整个 集群 只 有 一 个 HMaster, 察 觉 HRegionServer 
联机 和 宕 机 ,存储 访问 控制 列表 等 。 

Zookeeper 的 执行 能 力 更 是 毋庸 置疑 。 雅 虎将 Zookeeper 用 在 雅虎 消息 代理 的 协调 和 
故障 恢复 服务 中 。 雅 虎 消息 代理 是 一 个 高 度 可 扩展 的 发 布 一 订阅 系统 ,管理 着 成 千 上 万 台 
联机 程序 和 信息 控制 系统 ,其 吞吐 量 标准 已 经 达到 大 约 每 秒 10000 个 基于 写 操作 的 工作 量 。 
而 对 读 操 作 的 工作 量 来 说 ,其 吞吐 量 标准 要 高 几 倍 。 


5.3 Zookeeper 的 API 


Zookeeper 的 API 围绕 Zookeeper 的 句柄 而 构建 .每 个 API 调用 都 需要 传递 这 个 句柄 。 
这 个 句柄 代表 与 Zookeeper 之 间 的 一 个 会 话 。 


5.3.1 建立 会 话 


每 一 个 会 话 一 旦 它 的 连接 被 破坏 ,将 会 转移 到 其 他 的 Zookeeper 服务 。 只 要 会 话 保持 
通畅 ,句柄 才 会 持续 有 效 , Zookeeper 客户 端 类 库 会 保持 连接 。 如 果 句 柄 关闭 了 ,那么 
Zookeeper 客户 端的 类 库 会 告诉 Zookeeper 服务 端 终止 会 话 ; 如 果 Zookeeper 了 解 到 客户 
端 已 经 死 掉 , 它 将 会 验证 会 话 ; 如 果 以 后 客户 端 想 再 次 恢复 这 个 会 话 , 将 会 通过 这 个 句柄 来 
验证 一 个 会 话 的 有 效 性 。 

创建 Zookeeper 的 构造 函数 如 下 。 

Zookeeper (String connectString,int sessionTimeout,Watcher watcher) 

其 中 的 参数 描述 如 表 5-1 所 示 。 

表 5-1 参数 描述 
2 Β 描 æ 

connectString 包含 Zookeeper 服务 端的 主机 名 和 端口 号 

sessionTimeout | 会 话 的 超时 时 间 ,以 毫秒 为 单位 
用 于 接收 会 话 事件 的 对 象 。 这 个 对 象 需要 使 用 者 自己 创建 ,而 且 因为 watch 是 一 个 
接口 ,需要 使 用 者 实现 该 接口 。 客 户 端 需要 用 监视 器 观察 Zookeeper 的 会 话 状态 。 
当 客 户 端 建立 连接 或 者 失去 连接 时 .就 会 创建 该 事件 .该 事件 也 能 够 监视 Zookeeper 
数据 的 改变 。 最 后 如 果 会 话 过 期 ,该 事件 也 可 以 通过 客户 端 监听 到 











watcher 








下 例 实现 了 一 个 简单 输出 事件 的 watcher. 


import java.io.IOException; 

import org.apache.zookeeper.WatchedEvent; 
import org.apache.zookeeper.Watcher; 
import org.apache.zookeeper.ZooKeeper; 


//ClassName: master 
// 实 现 一 个 maste 的 watcher 
public class master implements Watcher ( 
ZooKeeper zk; 
String hostPort; 
master (String hostPort) { 
this.hostPort = hostPort;(D 
} 
void startZk() throws IOException ( 
zk = new ZooKeeper (hostPort, 15000, this) ;@) 
H 
public void process (WatchedEvent event) ( 
System.out.println (event) ; (3) 
} 
void stopZk() throws Exception { 
zk.close(); 
} 
public static void main(String| ] args) throws Exception { 
master m = new master ("mainl:2181"); 
m.startZk(); 
Thread.sleep (60000) ;@ 
m.stopZk(); 
} 
} 


JEn Ob: 该 实例 因 未 实例 化 Zookeeper 对 象 ,保存 hostPort 留待 后 用 ; 8. 使 用 
master 对 象 构 造 Zookeeper MR; Gb. 此 处 为 操作 部 分 ,该 实例 将 收 到 的 事件 进行 简单 
输出 ; @ 处 : 在 程序 退出 前 休 眼 一 段 时 间 , 以 便 看 到 事件 发 生 。 

结果 如 图 5-3 所 示 。 

其 中 ,处 : 描述 了 Zookeeper 客户 端的 实现 和 环境 ; 四 处 : 初始 化 一 个 客户 端 到 
Zookeeper 服务 器 的 连接 ; Gib. 展示 连接 建立 后 ,此 连接 中 包括 主机 、 端 口 和 超时 时 间 在 
内 的 信息 ; OA: 程序 中 实现 的 Watcher. process(WatchedEvent e) 函数 输出 的 WatchEvent 
XI. 


5.3.2 管理 权 


在 建立 会 话 后 ,程序 需要 获取 管理 权 来 进行 下 一 步 操作 。 为 了 确保 同一 时 间 只 有 一 个 
主 节 点 进程 处 于 活动 状态 ,就 得 采用 Zookeeper 集群 首选 举 算法 , 即 所 有 潜在 的 主 节点 进程 
都 尝试 创建 /master 节点 ,但 只 允许 一 个 成 功 ,使 这 个 成 功 的 进程 成 为 主 节点 。 
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: 现 这 个 算法 

String serverId = 

void runForMaster () { 
zk.create("/master", 
serverId.getBytes(), 
OPEN ACL UNSAFE, 
CreateMode .EPHEMERAL, 
masterCreateCallback, 
null); 
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Integer .toHexString (random.nextInt ()); 


表 5-2 参数 描述 











/master 
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创建 的 名 在 , 则 报错 





Serverld. getBytes() 





数据 时 型 的 数据 





OPEN_ACL_UNSAFE 





表示 ACL 策略 类 型 为 开放 ACL 策略 





CreateMode. EPHEMERAL 


节点 类 型 为 临时 节点 








masterCreateCallback 


回调 方法 的 对 象 





null 


用 户 指 定 的 上 下 文 信息 。 若 无 , 则 为 null 





因为 应 用 程序 常常 由 异步 变化 通知 所 驱动 ,异步 调用 不 会 阻塞 应 用 程序 ,其 他 事务 可 以 
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执行 。 以 异步 方式 构建 系统 更 加 便捷 , 故 本 


节 采 用 异步 方式 来 构建 ,实现 方法 如 下 。 


String serverId = Integer.toString (Random.nextLong()); 


static boolean isLeader; 


static StringCallback msterCreateCallback = new StringCallback () { 


void processResult (int rc,String path, object ctx,String name) { 





//rc 参 数 中 包含 create 请 求 的 结果 , 若 不 为 0 则 为 KeeperException 异常 
switch (Code.get (rc)){ 


case CONNECTIONLOSS: // 连 接 丢 失 异 常 
checkMaster () ; 
return; 

case OK: // 该 进程 成 为 Leader 
isLeader = true; 
break; 

// 该 进程 未 成 为 Leader 

default: 


isLeader = false; 

) 

System.out.println("The leader is " * (isLeader ? "" : "not " * "me.")); 
} 
void runForMaster () { 

zk.create ("/master", serverId.getBytes () ,OPEN ACL UNSAFE, 
CreateMode.EPHEMERAL,masterCreateCallback, null); 
} 


DataCallback masterCheckCallback = new DataCallback () { 
void processResult (int rc,String path, Object ctx,byte[ ] data, 
Stat stat) { 
switch (Code .get (rc) ) { 
case CONNECTIONLOSS: 
checkMaster () ; 
return; 
case NONODE: 
i runForMaster () 7 
return; 


) 


boolean checkMaster () ( 
zk.getData ("/master",false,masterCheckCallback, null); 
//getData 读 取 znode 节点 的 元 数据 信息 
//"/master"; znode 节点 路 径 
//false: 是 否 监听 后 续 数 据 变更 ,false 为 否 
//masterCheckCallback: 回调 方法 对 象 
//null: stat 对 象 ,null 表示 无 stat 对 象 

} 


public static void main(String args[ |) throws Exception{ 

master m= new master (args| 01}; 

m.startZK(); 

m.runForMaster (); 

if (isLeader) { 
System.out.println ("Leader is me."); 
Thread.sleep (60000) ; 

Jelse{ 
System.out.println ("Leader already exists.") 





5.3.3. 节点 注册 


创建 主 节点 后 ,需要 配置 从 节点 ,以 配合 主 节点 使 用 。 下 例 实现 了 从 节点 在 /workers 


下 创建 临时 znode 节点 。 


import java.util.* ; 
import org.apache.zookeeper.* ; 
import org.slf4j.* ; 


public class worker implements Watcher( 


private static final Logger LOG = LoggerFactory.getLogger (worker.class); 
ZooKeeper zk; 
String hostPort; 
String serverId = Integer.toHexString (random.nextInt ()); 
worker (String hostPort) { 
this.hostPort = hostPort; 


void startZk() throws IOException { 
zk = new ZooKeeper (hostPort, 15000, this); 


public void process (WatchedEvent event) { 
LOG. info (event .toString + "," + hostPort); 


void register() { 
zk.create ("/workers/worker-" + serverID, 
"Idle" .getBytes ()，// 将 节点 状态 信息 存 人 从 节点 中 
Ids.OPEN ACL UNSAFE, 
CreateMode.EPHEMERAL, workerCreateCallback, null); 
H 


public static void main(String| ] args) throws Exception ( 
worker wk = new worker ("args[ 0]"); 
wk.startZk(); 
wk.register(); 
Thread.sleep (60000) ; 


StringCallback workerCreateCallback = new StringCallback () { 
void processResult (int rc,String path, Object ctx,bytel ] data, 


Stat stat) { 


switch (Code.get (rc) ) { 
case CONNECTIONLOSS: 


I 





1 现 连 接 丢 失 导 致 的 创建 失败 ,重新 进行 创建 
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register(); 


break; 


case NODEEXISTS: 


LOG.warn(serverld + 


break; 


case ΟἹ 





LOG. info(serverId + "registered successfully 
break; 


default: 


already registered. 
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图 5-4 代码 执行 情况 








代码 执行 结果 


要 的 一 个 任务 : 为 Client 应 用 程序 队列 化 新 任务 ,方便 节 
下 例 采用 有 序 节 





点 来 实现 任务 的 队列 化 。 


public class Client implements Watcher{ 





Zookeeper zk; 

String hostPort; 

Client (String hostPort) ( 
this.hostPort = hostPort; 


} 
void startZk() throws IOException { 
zk = new ZooKeeper (hostPort, 15000, this); 
} 
public void process (WatchedEvent event) { 
System.out.println (event); 
} 
String queueCommand (String command) throws KeeperException{ 
while (true) { 
try{ 
String name = zk.create("/tasks/task- "serverId, 
command.getBytes () ,OPEN_ACL UNSAFE, CreateMode . SEQUENTIAL) ; 
return name; 
break; 
} catch (NodeExistsException e) { 
throw new Exception(name + " already appears to be running."); 
} catch (ConnectionLossException e) { 
} 


} 
public static void main(String args[ ]) throws Exception{ 
Client ct = new Client (args[ 0]); 
ct.startZK(); 
String name = c.queueCommand (args[ 1]) ; 
System.out.println ("Created "+ name); 


一 个 管理 客户 端 可 以 更 快 .更 简单 地 管理 系统 ,查看 状态 。 下 例 通 过 getData 等 方法 简 
单 地 实现 对 系统 运行 状态 的 查看 。 
import java.io.IOException; 


import org.apache.zookeeper.* ; 
public class AdminClient implements Watcher{ 


ZooKeeper zk; 
String hostPort; 
AdminClient (String hostPort) ( 
this.hostPort = hostPort; 
} 
void startZk() throws IOException { 
zk = new ZooKeeper (hostPort, 15000, this); 
} 
public void process (WatchedEvent event) { System.out.println(e); } 
void listState() throws KeeperException{ 


try{ 
Stat stat = new Stat(); 
byte masterData[ | = zk.getData("/master", false, stat) ; 
Date startDate = new Date (stat.getCtime()); 
System.out.println ("Master "+ new String (masterData) + 
" since "+ startDate); 
) catch (NoNodeException e) { 
System.out.println ("No Master"); 
) 
System.out.println ("Workers:" 
for (String w: zk.getChildren ("workers", false) ) { 
byte Data[ ] = zk.getData("/workers/" + w,false,null); 
String state = new String (data); 





System.out.println("\t "+ wt ": "+ state); 
} 
System.out.println ("Tasks:") ; 
for (String t: zk.getChildren("/assign", false) ) { 
System.out.println('At "+ t); 


) 

public static void main(String args| |) throws Exception( 
AdminClient ac = new AdminClient (args| 0]) ; 
ac.startZK(); 
ac.listState(); 


} 

public static void main(String args| |) throws Exception{ 
Client ct = new Client (args 0); 
ct.startZK(); 
String name — c.queueCommand (args| 11) ; 





System.out.println ("Created "+ name); 


} 
执行 结果 如 上 
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图 5-6 代码 执行 情况 


前 者 为 执行 命令 前 的 服务 器 状态 信息 ; 后 者 为 执行 命令 后 显示 的 服务 器 状态 信息 , 包 
含有 主 节点 (Master) 信 息 、 从 节点 (Workers) 和 任务 队列 (Tasks) 。 


54 状态 变化 处 理 


在 应 用 程序 中 ,需要 知道 Zookeeper 集合 的 状态 ,这 种 情况 并 不 少见 。Zookeeper 采取 
通知 客户 端 感 兴趣 的 具体 事件 的 方式 来 避免 轮 询 的 调 优 和 轮 询 流量 。 此 外 ,Zookeeper 提 


供 了 处 理 变化 的 重要 机 制 一 一 监视 点 (watch) 。 通 过 监视 点 ,客户 端 可 以 对 指定 的 znode 节 
点 注册 一 个 通知 请 求 ,在 发 生变 化 时 就 会 收 到 一 个 单 次 的 通知 。 
1. 单 次 触发 器 


一 个 监视 点 (watch) 表 示 一 个 与 之 关联 的 znode 节点 和 事件 类 型 组 成 的 单 次 触发 器 。 
当 一 个 watch 被 一 个 事件 触发 时 ,就 会 产生 一 个 通知 , 即 注册 了 监视 点 的 客户 端 收 到 的 事件 
报告 消息 。 

当 应 用 程序 注册 了 一 个 监视 点 来 接收 通知 后 ,匹配 该 监视 点 条 件 的 第 一 个 事件 会 触发 
监视 点 的 通知 ,并 且 最 多 只 和 触发 一 次 。 

客户 端 设置 的 每 个 监视 点 与 会 话 关联 ,如 果 会 话 过 期 ,等 待 中 的 监视 点 就 会 被 删除 。 在 
注册 监视 点 时 ,服务 端 要 检查 已 监视 的 znode 节点 在 注册 前 、 后 监视 点 是 否 发 生 了 变化 , 若 
已 经 发 生变 化 ,将 会 通知 客户 端 , 否 则 在 新 服务 端 上 注册 监视 点 。 

单 次 触发 会 发 生 事件 丢失 情况 ,但 这 并 不 会 对 系统 造成 极 大 影响 。 因 为 任何 接收 通知 
与 注册 新 监视 点 之 间 的 变化 情况 , 均 可 以 通过 读 取 Zookeeper 的 状态 信息 来 获得 。 

2. 设置 监视 点 

Zookeeper 的 API 中 的 所 有 读 操 作 : getData getChildren 和 exists 都 可 以 选择 在 读 取 
的 znode 节点 上 设置 监视 点 。 使 用 监视 点 机 制 的 前 提 是 实现 Watcher 接口 类 ,并 实现 其 中 
的 process 方法 。 


public void process (WatchedEvent event); 


其 中 ,WatchedEvent 包含 Zookeeper 会 话 状态 、 事 件 类 型 .以 及 事件 类 型 不 为 none 时 
的 znode 路 径 等 信息 。 

监视 点 有 两 种 类 型 : 数据 监视 点 和 子 节点 监视 点 。 创 建 、 删 除 或 设置 znode 节点 的 数 
据 都 会 触发 数据 监视 点 , 即 getData 和 exists 操作 可 以 设置 数据 的 监视 点 。 但 仅 有 getChildren 
操作 能 设置 子 节点 监视 点 , 且 只 有 在 znode 子 节点 创建 或 删除 时 才 被 触发 。 

监视 点 的 一 个 极其 重要 问题 是 ,一 旦 设置 监视 点 就 无 法 移 除 。 若 要 移 除 一 个 监视 点 , 目 
前 Zookeeper 仅 提 供 了 两 种 方法 。 

() 触发 该 监视 点 ; 

(2) 使 其 会 话 关闭 或 过 期 。 

3. 监视 点 代替 显 式 缓存 管理 

从 应 用 的 角度 来 看 ,客户 端 都 是 通过 访问 Zookeeper 来 获取 给 定 znode 节点 的 数据 一 
个 znode 节点 的 子 节点 列表 或 其 他 相关 的 Zookeeper 状态 。 但 是 这 种 方式 并 不 实用 ,更 为 
高 效 的 方式 为 客户 端 本 地 缓存 数据 ,并 在 需要 时 使 用 这 些 数据 。 一 旦 这 些 数据 发 生变 化 ， 
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Zookeeper 通知 客户 端 ,客户 端 更 新 缓存 的 数据 。 

Zookeeper 客户 端 通过 注册 监视 点 来 接收 通知 信息 ,因而 监视 点 使 客户 端 在 本 地 缓存 
一 个 版 本 的 数据 ,并 在 数据 发 生变 化 时 接收 到 通知 来 进行 更 新 。 

4. 监视 点 的 羊 群 效应 和 可 扩展 性 

应 用 中 有 一 个 问题 需 注 意 : 当 变化 产生 时 ,Zookeeper 会 触发 一 个 特定 的 znode 节点 ， 
以 变化 相关 的 所 有 监视 点 。 例 如 ,10000 个 客户 端 以 exists 操作 监视 这 个 znode 节点 ,那么 
当 znode 节点 创建 后 就 会 发 送 10000 个 通知 , 即 被 监视 的 znode 节点 的 一 个 变化 会 产生 一 个 
尖峰 的 通知 ,该 尖峰 可 能 会 带 来 许多 影响 一 一 在 尖峰 时 刻 提交 的 操作 产生 延迟 等 。 因 此 ,应 该 
尽量 避免 大 量 客 户 端 在 一 个 特定 节点 上 设置 监视 点 ,理想 状态 是 一 个 节点 只 设置 一 个 监视 点 。 

另 一 方面 需要 注意 ,服务 端 一 侧 通 过 监视 点 产生 的 状态 变化 。 设 置 一 个 监视 点 需要 在 
服务 端 上 创建 一 个 watch 对 象 ,而 根据 YouKit 的 分 析 工 具 得 到 的 分 析 结 果 显 示 , 设 置 一 个 
监视 点 会 使 服务 端的 监视 点 管理 器 的 内 存 消耗 大 约 250—300 字 节 , 设 置 非常 多 的 监视 点 意 
味 着 监视 点 管理 器 会 消耗 大 量 的 服务 器 内 存 。 因 此 ,开发 者 必须 时 刻 注意 设置 的 监视 点 








数量 。 
55 故障 处 理 
Zookeeper 系统 处 理 客户 端 写 请 求 的 一 个 流程 如 图 5-7 所 示 。 
LR 2. 转 发 请 求 
3. 提 案 
Follower 4 .投票 Leader 
6. 响 应 
5. 提 交 























图 5-7 Zookeeper 处 理 客 户 端 请 求 流程 


流程 中 任何 一 环 发 生 错误 ,都 可 能 导致 Zookeeper 系统 出 现 故障 。Zookeeper 产生 的 故 
障 可 分 为 三 类 : 客户 端 节点 故障 .Follower 服务 器 节点 故障 和 Leader 服务 器 节点 故障 。 

1. 客户 端 节点 故障 

若 Zookeeper 客户 端 节 点 发 生 故 障 , 客 户 端正 处 于 空闲 状态 , 则 按照 session 失效 处 理 。 
复杂 的 情况 是 ,客户 端 节点 发 生 故 障 时 ,客户 端正 在 等 待 Zookeeper 服务 器 端的 请 求 响应 。 
下 面 将 对 Zookeeper 客户 端 节点 发 生 故 障 的 时 机 进行 详细 的 分 类 讨论 。 

Zookeeper 如 何 知 道 客户 端 还 存 不 存在 呢 ? Zookeeper 是 使 用 session 来 解决 这 个 问题 
的 ,这 也 是 为 什么 在 客户 端 创建 Zookeeper 实例 时 需要 传人 一 个 sessionout 参数 。 当 客户 
端 与 Follower 连接 时 ,实际 上 是 成 功 创建 了 一 个 session,Follower 和 Leader 都 保存 了 这 个 
session 信息 (实际 上 session 的 建立 也 是 需要 Leader 同意 的 )。 一 方面 ,客户 端 会 定期 向 
Follower 发 送 Ping 包 来 告诉 这 个 Follower 客户 端 还 在 运行 ; 另 一 方面 ,Leader 会 定期 向 
Follower 发 送 ping 包 , 一 是 检测 它 的 Follower 是 否 至 少 有 超过 一 半 还 在 运行 ,二 是 





Follower 返回 它们 各 自 正 在 服务 的 客户 端 ( 未 超时 的 session) EF UF Leader 哪些 客户 端 还 
在 和 运行, 这样 Leader 就 可 以 删除 那些 客户 端 已 经 不 存在 的 ephemeral 类 型 的 节点 。 当 正在 
工作 的 客户 端 节 点 发 生 故障 时 ,Zookeeper 系统 如 何 来 处 理 呢 ? 

(1) Follower 在 转发 请 求 阶段 若 没有 发 现 客户 端 已 经 发 生 了 故障 , 则 会 将 请 求 转 发 给 
Leader, 否 则 将 丢弃 该 客户 端的 请 求 包 。 

(2) Leader 在 提案 阶段 还 没有 发 现 客户 端 已 经 发 生 了 故障 ,那么 后 面 的 投票 和 提交 阶 
段 会 顺利 执行 。 

(3) 到 响应 阶段 , 若 此 时 Follower 已 经 发 现 了 该 客户 端 发 生 故障 , 则 它 不 会 向 客户 端 
发 送 响应 包 ,而 直接 从 FinalRequestProcessor 处 理 器 中 返回 ; 车 此 时 Follower 还 没有 发 现 
该 客户 端 发 生 故 障 , 则 FinalRequestProcessor 会 将 响应 包 交 给 对 应 的 NIOServerCnxn. 而 
NIOServerCnxn 在 发 送 该 响应 包 时 ,会 抛 出 异常 ,但 没有 对 该 异常 做 任何 处 理 。 

(4) Leader 在 提案 阶段 发 现 了 客户 端 已 经 发 生 了 故障 ,那么 后 面 的 投票 和 提交 阶段 仍 
然 会 顺利 执行 ,只 不 过 此 时 的 操作 类 型 是 OpCode. error, 然后 直接 从 FinalRequest- 
Processor 处 理 器 中 返回 ,而 不 会 发 生 响 应 阶段 。 

2. Follower 服务 器 节点 故障 

这 里 主要 对 Zookeeper 中 的 Follower 节点 发 生 故 障 时 的 处 理 机 制 进行 详细 的 讨论 。 
当 某 一 个 Follower 或 Observer 发 生 故 障 时 ,与 之 直接 相连 的 Zookeeper 客户 端 不 可 能 再 从 
Follower 或 Observer 收 到 正在 处 理 的 请 求 的 响应 包 。 因 此 , 它 会 丢弃 正在 处 理 的 请 求 , 并 
通知 客户 ,而 Zookeeper 客户 端 则 会 重新 选择 一 个 Follower 或 Observer, 并 与 之 建立 联系 
为 客户 端 服务 ,这 个 过 程 对 用 户 是 透明 的 。 

(1) 若 Follower 在 处 理 转 发 阶段 之 前 发 生 故 障 , 则 处 理 情 况 如 上 所 述 ,只 涉及 
Zookeeper 客户 端 。 

(2) 若 Follower 在 处 理 转 发 阶段 之 后 发 生 故 障 , 则 Leader 最 迟 会 在 执行 提案 阶段 发 现 
Follower 发 生 了 故障 。 尽 管 Follower 收 不 到 Leader 发 送 的 提案 , Leader 也 不 会 收 到 
Follower 的 投票 ,但 只 要 当前 还 有 超过 半数 的 Follower 存活 ,就 不 会 影响 Leader 的 处 理 。 

(3) 如 果 某 一 个 Follower 失效 , 则 Leader 不 能 得 到 该 Follower 管理 的 session 信息 ， 
之 后 Leader 可 能 会 误 认 为 与 该 Follower 相连 的 若干 Zookeeper 客户 端 失效 。 这 种 情况 的 
处 理 同 Zookeeper 客户 端 发 生 故 障 是 一 样 的 。 

从 上 述 处 理 可 以 看 出 ,单个 Follower 节点 的 失效 对 整个 Zookeeper 服务 集群 很 难产 生 
致命 的 影响 ,单个 Follower 在 任何 时 刻 的 失效 ,系统 仍然 会 比较 稳定 地 继续 运行 。 

3. Leader 服务 器 节点 发 生 故 障 

前 面 分 别 讨论 了 在 Zookeeper 客户 端 节 点 、Follower 节点 发 生 故 障 的 情况 下 ， 
Zookeeper 是 如 何 处 理 的 。 最 后 ,再 讨论 一 下 Leader 节点 发 生 故 障 的 情况 下 ,Zookeeper 的 
处 理 机 制 。 

COD Æ Leader 节点 在 非 响 应 阶段 之 前 发 生 了 故障 , 则 Follower 的 转发 阶段 不 会 执行 成 
功 , 但 该 请 求 包 会 被 添加 到 Follower 的 pendingSyncs 集合 中 。 同 时 ,Follower 发 现 Leader 
已 经 失效 ,退出 Follower 角色 ,并 关闭 与 之 相连 的 客户 端 。 随 后 ,Follower 会 参加 Leader 
的 选举 ,而 在 选举 的 过 程 中 ,该 节点 不 会 再 接受 任何 客户 端的 连接 。 





大 数据 
QD EHNA 


(2) Æ Leader 节点 在 响应 阶段 之 前 发 生 了 故障 , 则 采取 方法 (1) 的 方式 处 理 Follower 
节点 ,在 处 理 的 同时 也 会 继续 执行 响应 阶段 的 操作 。 


5.6 Zookeeper 集群 管理 


5.6.1 集群 配置 


首先 在 各 机 器 上 安装 Zookeeper, 从 官网 下 载 所 需 版 本 的 Zookeeper 安装 包 。 
接着 在 所 要 使 用 的 机 器 上 部 署 Server, 机 器 至 少 要 三 台 及 以 上 。 
这 里 要 在 三 台 机 器 上 部 署 4 个 Server, 分 别 在 三 台 机 器 上 建立 文件 夹 。 


serverl(server2,server3, server4) 


在 每 个 文件 夹 里 面 解 压 一 个 Zookeeper 的 安装 包 , 并 且 创 建 data logs 等 日 志 数 据 文件 
夹 Data、dataLog logs 和 zookeeper-3. x. x. 

进入 data 目录 ,创建 一 个 myid 的 文件 , 往 里 面 写 入 一 个 代表 本 机 标记 号 的 数字 。 例 
如 ,serverl 可 以 对 应 写 入 1,server2 对 应 myid 文件 写 入 2,server3 对 应 myid 文件 写 人 3. 
只 需要 各 机 的 myid 中 标记 号 不 重复 即 可 。 

进入 zookeeper-3. x. x/conf 目录 ,其 中 会 有 3 个 文件 : configuration. xml, log4j. properties 
和 zoo. sample. cfg。 接 着 在 这 个 目录 下 创建 一 个 zoo. cfg 的 配置 文件 ,也 可 以 把 zoo sample. cfg 
文件 改 成 zoo. cfg, 配 置 的 内 容 如 下 。 

tickTime= 2000 

initLimit= 10 

syncLimit= 5 

# xxx 代表 此 机 器 的 用 户 名 

dataDir- /home/xxx/serverl/data 

dataLogDir- /home/xxx/serverl/dataLog 

clientPort- 2181 

# YYYY 代 表 集 群 中 对 应 的 各 机 器 的 ip，server.x 代 表 该 机 器 的 myid 

server.1= yyyy:2888:3888 

server.2= yyyy:2888:3888 

Server.3- yyyy:2888:3888 

server.4= yyyy:2888:3888 


需要 注意 的 是 ,server. X 这 个 数字 就 是 对 应 data/myid 中 的 数字 。 在 4 个 Server 的 
myid 文件 中 分 别 写 人 了 1、2、3、4, 那 么 每 个 Server 中 的 zoo. cfg 都 配 server. 1 server. 2. 
server. 3 和 server. 4 就 可 以 了 。 后 面 连 着 两 个 端口 ,其 中 第 一 个 端口 用 于 做 集群 成 员 的 信 
息 交换 ,第 二 个 端口 是 在 Leader 发 生 故 障 时 专门 用 于 选举 Leader 所 用 。 

进入 zookeeper-3. x. x/bin 目录 ,以 . /zkServer. sh start 启动 Server。 只 要 4 台 机 器 中 
的 3 台 可 用 ,就 可 以 选 出 Leader. 并 对 外 提供 服务 ,如 图 5-8 所 示 。 

可 以 采用 命令 : telnet 机 器 IP 端口 号 来 连接 Server。 再 输入 stat, 可 获取 当前 Server 
的 状态 信息 ,如 图 5-9 所 示 。 


[tseg@nain] zookeeper-3.4.6]$ zkServer.sh start 
JMX enabled by defaul 





图 5-8 启动 Server 


[tseg@mainl zookeeper-3.4.6]$ telnet mainl 2181 

Trying 10.105.242.56 

Connected to mainl. 

Escape character is 

Stat 

Zookeeper version: 3.4.6-1569965, built on 02/20/2014 09:09 GMT 
Clients: 

/10.105.242.56:59627[0] (queued=0, recved=1,sent=0) 


Latency min/avg/max: 0/0/0 
Received: 1 

Sent: 9 

Connections: 1 
Outstanding: 0 

Zxid: 0x800000ee6 

Mode: follower 

Node count: 120 





图 5-9 获取 Server 运行 状态 


5.6.2 集群 管理 


应 用 集群 时 ,每 一 台 机 器 都 需要 知道 集群 中 (或 依赖 的 其 他 某 个 集群 ) 哪 些 机 器 是 活着 

的 ,并 且 在 集群 中 机 器 出 现 宕 机 、 网 络 断 链 等 故障 时 能 够 不 在 人 工 介 入 的 情况 下 迅速 通知 每 
- 台 机 器 。 

Zookeeper 同样 很 容易 实现 这 个 功能 ,例如 在 Zookeeper 服务 器 端 有 一 个 znode 叫 
/ APP1SERVERS, 那 么 集群 中 每 一 个 机 器 启动 时 都 去 这 个 节点 下 创建 一 个 EPHEMERAL 类 
型 的 节点 。 例 如 ,serverl 创建 /APP1SERVERS/SERVER1( 可 以 使 用 IP, 保 证 不 重复 ) ,server2 
创建 /APP1SERVERS/SERVER2, 然 后 SERVERI 和 SERVER2 都 watch( 监 视 )/ APPISERVERS 
这 个 父 节点 ,也 就 是 说 这 个 父 节点 下 数据 或 者 子 节点 变化 都 会 通知 对 该 节点 进行 watch 的 
客户 端 。 因 为 EPHEMERAL 类 型 节点 有 一 个 很 重要 的 特性 ,就 是 客户 端 和 服务 器 端 连接 
中 断 或 者 session 过 期 都 会 使 节点 消失 ,那么 在 某 一 台 机 器 发 生 故 障 或 者 断 开 连接 时 ,其 对 
Ji Bg As x j 











内 后 集群 中 所 有 对 /APP1SERVERS 进行 watch 的 客户 端 都 会 收 到 通 
知 , 最 后 取得 最 新 列表 。 

另外 有 一 个 应 用 场景 是 集群 选 Master。 一 旦 Master 发 生 故 障 就 能 够 马上 从 slave 中 
选 出 一 个 Master, 实 现 步骤 和 前 者 一 样 ,只 是 机 器 在 启动 时 在 APPISERVERS 创建 的 节点 
类 型 变 为 EPHEMERAL_SEQUENTIAL 类 型 ,这 样 每 个 节点 都 会 自动 被 编号 。 

默认 规定 编号 最 小 的 为 Master. 当 对 /APP1SERVERS 节点 做 监控 时 ,得 到 服务 器 列 

,只 要 所 有 集群 机 器 逻辑 认为 最 小 编号 节点 为 Master, 那 么 Master 就 被 选 出 ,而 这 个 

Master 宕 机 时 ,相应 的 znode 会 消失 ,接着 新 的 服务 器 列表 被 推送 到 客户 端 ,然后 每 个 节点 
逻辑 认为 最 小 编号 节点 为 Master, 如 此 操作 就 实现 了 动态 Master 选举 。 
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本 章 小 结 


本 章 讲 解 了 Zookeeper 相关 的 基础 知识 和 开发 知识 ,让 读者 了 解 Zookeeper 的 来 源 、 
性 质 及 基本 概念 ,Zookeeper 开发 的 应 用 方法 及 实现 方式 、Zookeeper 集群 的 配置 及 管理 


方法 。 
(1) 详细 介绍 了 Zookeeper 及 其 来 源 , 说 明了 Zookeeper 与 其 他 项 目的 关联 及 Zookeeper 
的 重要 作用 ,并 且 介 绍 了 其 特点 。 


(2) 介绍 了 分 布 式 协作 所 存在 的 三 大 难点 ,以 及 FLP 定律 和 CAP 定律 ,也 讲述 了 
Zookeeper 所 解决 的 困难 及 实现 的 取舍 。 

(3) 从 Zookeeper 的 znode 类 型 ΠΒ APL, Leader 选择 方法 等 方面 介绍 Zookeeper 的 
基本 概念 。 

(4) 讲述 了 Zookeeper 的 两 种 运行 模式 .架构 及 其 应 用 场景 。 

(5) 详细 介绍 了 Zookeeper 可 调用 的 多 种 API 用 法 ,包含 会 话 建立 ,管理 权 获 取 、 节 点 
注册 ,任务 队列 化 等 。 

(6) 讲述 了 Zookeeper 状态 变化 处 理 的 重要 机 制 一 一 监视 点 ,并 分 析 了 监视 点 机 制 较 
显 式 缓存 的 优势 。 此 外 ,还 介绍 了 应 用 中 监视 点 的 羊 群 效应 和 可 扩展 性 。 

CD 从 3 个 方面 详细 讲述 了 Zookeeper 各 部 分 的 故障 处 理 机 制 。 

(8) 详细 讲解 了 Zookeeper 集群 建立 的 全 部 配置 过 程 ,并 介绍 了 查询 当前 Server 的 
方法 。 

(9) 介绍 了 Zookeeper 集群 管理 的 需求 和 方法 ,同时 解释 了 动态 选举 的 过 程 。 


习 Β 
(1) 下 列 方法 中 ,( ) 不 是 设置 监视 点 的 方法 。 

A. getData B. getChildren C. register D. exists 
(2) 以 下 属性 中 不 是 znode 中 的 版 本 号 的 是 ( de 

A. Version B. Zversion C. Cversion D. Aversion 
(3) 以 下 项 目 中 没有 应 用 Zookeeper 的 是 ( Ja 

A. Hadoop B. HBase €. FLP D. Storm 
(4) Zookeeper 集群 中 最 少 ( ) 台 机 器 可 以 推举 出 一 个 Leader? 

A. 2 B. 3 C. 4 D. 5 


(5) 为 什么 说 Zookeeper 是 一 种 高 性 能 、 可 扩展 的 服务 ? 
(6) 什么 是 单 点 故障 ? 并 给 出 解决 方案 。 

(7) anode 的 节点 类 型 有 哪些 ? 请 详细 叙述。 

(8) 什么 是 Zookeeper 的 通知 机 制 ? 请 详细 叙述 。 

(9) 监视 点 的 羊 群 效应 是 什么 ? 





(10) 显 式 缓存 管理 为 什么 被 取代 ? 

OD 监视 点 有 哪 两 种 类 型 ?分别 如 何 设 置 , 如 何 移 除 监视 点 ? 
(12) 群 首选 举 是 什么 ,如 何 实现 这 个 过 程 ? 

(13) 为 什么 配置 文件 zoo. cfg 中 的 每 个 Server 都 有 两 个 端口 值 ? 
(14) 如 何 知 道 Zookeeper 集群 中 哪些 机 器 依旧 在 运行 ? 
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61 什么 是 HBase 


6.1.1 大 数据 的 背景 


据 国际 数据 公司 IDC 报道 ,2015 年 产生 和 复制 的 数据 量 超过 2X1028GB, 相 当 于 世界 
上 所 有 海滩 沙 粒 总 数 的 20 倍 , 大 型 强 子 对 撞 机 每 年 积累 的 新 数据 量 为 15PB 左右 ,沃尔玛 
公司 每 天 通过 6000 多 个 商店 向 全 球 客户 销售 超过 2. 67 亿 件 商品 ,这 些 庞大 的 数据 量 提醒 
我 们 ,互联 网 已 经 进入 了 “大 数据 "时 代 。 

以 往 对 数据 存储 的 管理 ,大 家 一 般 都 采取 RDBMS( 关 系数 据 库 系统 ) ,关系 数据 库 系统 
的 管理 模型 追求 的 是 高 度 一 致 性 和 正确 性 。 面 向 超大 数据 的 分 析 需 求 时 ,其 采取 纵向 扩展 
系统 方式 , 即 通过 增加 或 者 更 换 CPU、 内 存 、 硬 盘 以 扩展 单个 节点 的 能 力 , 然 而 这 种 方式 终 
将 会 遇 到 瓶颈 。 因 此 ,为 了 解决 关系 数据 库 系统 所 面临 的 难题 ,满足 实际 项 目的 需求 ， 
NoSQL( 非 关系 型 数据 库 系统 ) 就 此 诞生 。 

面 对 超 大 规模 的 数据 分 析 处 理 , 因 为 超大 规模 的 查询 需要 进行 大 范围 的 数据 记录 扫描 
或 全 表 扫 描 ,RDBMS 在 一 台 服 务 器 上 做 查询 工作 的 响应 时 间 会 远 远 超过 用 户 可 接受 的 合 
理 响应 时 间 。 更 糟糕 的 是 ,RDBMS 的 等 待 和 死 锁 的 出 现 频率 ,与 事务 和 并 发 的 增加 并 不 是 
线性 关系 ,准确 地 说 ,与 并 发 数目 的 平方 以 及 事务 规模 的 3 次 方 甚至 5 次 方 相关 。 在 相同 情 
况 下 ,NoSQL 采取 反 范式 化 数据 模型 来 避免 等 待 .并 且 可 以 通过 降低 锁 粒 度 的 方式 来 尽量 
避免 死 锁 ,数据 增长 时 ,无 须 重新 分 区 迁移 数据 并 内 谤 水 平 扩展 性 的 方法 。 最 后 , 面 对 容 错 
和 数据 可 用 性 问题 ,采用 提高 扩展 性 的 机 制 。 显 而 易 见 ,如 今 的 "大 数据 ?时 代 ,使 用 NoSQL 
数据 库 才 是 符合 时 代 潮 流 。 

2003 年 ,在 意识 到 RDBMS 在 大 规模 数据 处 理 中 的 缺点 后 ,Google 的 工程 师 们 开始 考 
虑 大 规模 数据 处 理 的 其 他 切入 点 。 如 据 弃 RDBMS 的 特点 ,进行 增 、 查 、 改 、 删 等 操作 采用 简单 
API 实 现 ,再 加 一 个 扫描 函数 ,大 范围 或 全 表 范 围 上 迭代 扫描 。 最 终 经 过 不 懈 努 力 , 在 2006 年 
实现 了 BigTable 这 一 成 果 。 经 过 之 后 的 发 展 、 补 充 ,完善 ,BigTable 成 了 如 今 的 典型 NoSQL 数 
据 库 HBase。 














6.1.2 HBase 架构 
HBase 的 基本 组 件 包含 Client, Master, Region Server 等 ,具体 架构 图 如 图 6-1 所 示 。 
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图 6-1 HBase 框架 


图 6-1 中 各 组 件 的 功能 如 下 。 

Client: 包含 访问 HBase 的 接口 ,并 维护 cache 来 加 快 对 HBase 的 访问 ,如 region 的 位 
置信 息 。 

Master; 为 Region Server 分 配 region. 负责 Region Server 的 负载 均衡 ,发 现 失效 的 
Region Server 并 重新 分 配 其 上 的 region ,管理 用 户 对 table 的 增删 改 查 操作 。 

Region Server: Region Server 维护 region ,处 理 对 这 些 region 的 1/0 请 求 ; 负责 切 分 
在 运行 过 程 中 变 得 过 大 的 region, 

Zookeeper: 通过 选举 ,保证 任何 时 候 集群 中 只 有 一 个 Master. Master 与 Region Servers 启 
动 时 会 向 Zookeeper 注册 。 存 储 所 有 region 的 寻 址 人 口 ,实时 监控 Region Server 的 上 线 和 
下 线 信息 ,并 实时 通知 给 Master。 存 储 HBase 的 schema 和 table 元 数据 。 默 认 情 况 下 ， 
HBase 管理 Zookeeper. Zookeeper 的 引入 使 Master 不 再 是 单 点 故障 。 

一 个 基本 的 流程 如 图 6-2 所 示 。 客 户 端 首先 联系 Zookeeper 子 集群 (quorum, 一 个 由 
Zookeeper 节点 组 成 的 单独 集群 ) 查 找 行 键 。 上 述 过 程 是 通过 Zookeeper 获取 含有 ROOT _ 
的 region 服务 器 名 (主机 名 ) 来 完成 的 。 通 过 含有 ROOT 的 region 服务 器 可 以 查询 到 含 
有 . META. 表 中 对 应 的 region 服务 器 名 ,其 中 包含 请 求 的 行 键 信息 。 这 两 处 的 主要 内 容 都 
被 缓存 下 来 ,并 且 都 只 查询 一 次 。 最 终 ,通过 查询 . META. 服务 器 来 获取 客户 端 查询 的 行 
键 数据 所 在 region 的 服务 器 名 。 一 旦 知道 了 数据 的 实际 位 置 , 即 region 的 位 置 ,HBase 会 
缓存 这 次 查询 的 信息 ,同时 直接 联系 管理 实际 数据 的 HRegion Server。HRegion Server 负 
责 打 开 region ,并 创建 对 应 的 HRegion.region 被 打开 后 , 它 会 为 每 个 表 的 HColumnFamily 
创建 一 个 Store 实例 ,这 些 列 簇 是 用 户 之 前 创建 表 时 定义 的 。 每 个 Store 实例 包含 一 个 或 多 
个 StoreFile 实例 ,它们 是 实际 数据 存储 文件 HFile 的 轻 量 级 封装 。 每 个 Store 还 有 其 对 应 
的 一 个 MemStore, 一 个 HRegion Server 分 享 了 一 个 Hlog 实例 。 
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图 6-2 Zookeeper 集群 基本 流程 


6.1.3 HBase 存储 API 


HBase 的 存储 API 提供 了 建 表 、 删 表 增加 列 篮 和 删除 列 复 的 操作 ,同时 还 提供 了 修改 
表 和 列 复元 数据 等 功能 。 部 分 存储 API 见 表 6-1. 


表 6-1 部 分 存储 API 



































返回 值 PA 数 描 述 

addColumn(String tableName. 
ees column) TEER ERR 

void createTable( HTableDescriptor desc) 创建 一 个 新 表 
deleteTable(byte[ ] tableName) 删除 一 个 已 存在 的 表 
addFamily( HColumnDescriptor) 添加 一 个 列 簇 

HColumnDescriptor removeFamily(byte[ ] column) 移 除 一 个 列 簇 

byte[] getName() 获取 表 名 

byte[] getValue(byte[ ] key) 获取 属性 的 值 

void setValue(String key,String value) 设置 属性 的 值 

void put(Put put) 向 表 中 添加 值 


在 这 些 基 本 功能 的 基础 上 ,还 有 一 些 更 高 级 的 特性 。 由 于 单元 格 的 值 可 以 当 作 计 数 器 
使 用 ,并 且 能 够 支持 原子 更 新 。 这 个 计数 器 能 够 在 一 个 操作 中 完成 读 和 修改 ,因此 尽管 是 分 
布 式 的 系统 架构 ,客户 端 仍然 可 以 利用 此 特性 实现 全 局 的 强 一 致 的 连续 的 计数 器 。 
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6.2.1 HBase 配置 及 安装 


l. 必 备 条 件 

在 进行 HBase 安装 之 前 ,需要 确定 是 否 具备 以 下 3 个 必 备 条 件 。 

(D Linux 操作 系统 或 类 UNIX 系统 。 支 持 HBase 集群 的 操作 系统 有 CentOS, Fedora, 
Debian, Ubuntu, Solaris, Red Hat Enterprise Linux 等 。 这 些 操作 系统 都 可 以 满足 使 用 需求 ,区 
别 就 在 于 系统 是 开源 免费 还 是 闭 源 收费 。 用 户 可 以 自行 选择 适合 自己 的 操作 系统 。 

(2) Java 版 本 。HBase 需要 Java 才能 运行 。 一 些 HBase 与 JDK 的 版 本 的 对 应 关系 如 
K 6-2 所 示 。 

表 6-2 HBase 与 JDK 对 应 版 本 





























HBase Version JDK 6 JDK 7 JDK 8 
L2:x 不 支持 不 支持 支持 
1.1.x 不 支持 支持 支持 
1.0.x 不 支持 支持 支持 
0.98. x 支持 支持 支持 
0. 96. x 支持 支持 不 支持 
0. 94. x 支持 支持 不 支持 


用 户 可 以 在 命令 行 中 输入 java -version 来 查看 已 经 安装 的 JDK 版 本 信息 ,如 图 6-3 所 示 。 


I$ j 





图 6-3 查看 JDK 版 本 


其 中 ,1. 8.0_101 X JDK 的 版 本 号 , 即 为 JDK 8. 

(3) Hadoop 版 本 。 由 于 HBase 与 Hadoop 之 间 的 远程 过 程 调用 是 依靠 RPC 协议 的 ， 
RPC 协议 是 版 本 化 的 ,需要 调用 方 与 被 调用 方 相互 匹配 ,出 现 细微 差异 就 会 导致 通信 错误 。 
因此 ,HBase 只 能 依赖 于 特定 的 Hadoop 版 本 。 一些 HBase 与 Hadoop 的 版 本 对 应 关系 如 
表 6-3 所 示 。 

表 6-3  HBase 与 Hadoop 对 应 版 本 

















HBase 
Hadoop 
0.94. x 0.98. x 1.0. x 1.1.χ 1,35 x 
Ox x x x x x 
1,1, x s x x x x 
2.0.x 5 x x x x 
2.1.x x x x x x 
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实时 计算 与 应 用 
HBase 
Hadoop 
0.94.x 0.98. x 1.0. x μια. 1. 2. 工 
2.2.x x 5 x κ x 
2.3.x x 5 x x x 
2.4.x x s s s s 
VE x s 5 5 5 
2.6.x x x x s 
.0 X x 8 











用 户 可 以 通过 输入 “hadoop 路 径 





息 , 如 图 6-4 所 示 。 











bin/hadoop version 来 查看 已 经 安装 的 Hadoop 版 


[tseg@nainl ~]$ hadoop-2.6.0/bin/hadoop version 


Hadoop 2.6.0 


Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r e3496499ecb8d220fba99dc5 


ed4c99c8f9e33bb1 


Compiled by jenkins on 2014-11-13T21:10Z 


Compiled with protoc 2.5.0 


From source with checksum 18e43357c8f927c0695f1e9522859d6a 
This command was run using /home/tseg/hadoop-2.6.0/share/hadoop/common/hadoop -common -2 .6. 


CAELS 


其 中 ,Hadoop 2.6.0 为 Hadoop 的 版 本 号 


2. 安装 配置 


确认 上 述 几 个 必 备 条 件 满足 





的 HBase 


完全 分 布 式 模式 的 安装 


图 6-4 


足 后 
去 配置 





RET LÆ FEIT HBase 的 安 


(1) 首先 从 Apache HBase 的 发 布 网 站 (http: 


下 载 所 需要 版 本 的 HBase, 并 将 内 容 角 


$ cd hbase 文件 所 在 路 径 


tar -zxf hbase-x.y.z.tar.gz 





= 人 =/ 





Hadoop 版 本 


r B 2.6.0 版 本 





1 5 


www. apache. org/ dyn/ closer. cgi/ hbase, 


eR Bl) 515 AY Η ae 


将 内 容 解 压 到 当前 用 户 目 录 下 


(2) 接着 进入 HBase 安装 目录 中 的 conf 目录 ,对 其 中 的 hbase-site. xml, hbase-env. 





几 个 文件 进行 


$ cd~/hbase-x.y.z/conf 
$ 1s- 1r 


[tseg@mainl hbase-1.1.5]$ cd 
-lr 


[tseg@nainl conf]$ 


tseg 
tseg 


tseg 
tseg 
tseg 
tseg 
tseg 
tseg 


15 


tseg 
tseg 
tseg 
tseg 
tseg 
tseg 
tseg 
tseg 


编辑 ,如 图 6-5 所 示 


图 6-5 


显示 当前 目录 下 的 所 有 文件 


:51 
:14 

61 

53 
:01 
:46 
Hol 
:01 


~/hbase-1.1.5/conf 


zoo.cfg 

regionservers 

log4j.properties 

hbase-site.xml 

hbase-policy.xml 

hbase-env.sh 

hbase-env.cmd 
hadoop-metrics2-hbase.properties 





文件 配置 





δὶ 


sh 





接着 用 vim 命令 打开 相应 文件 ,进行 编辑 。 
CD 对 于 hbase-site. xml 文件 : 


<configuration> 
«property» 
«name» hbase.rootdir< /name> 
«value» hdfs://mainl:9010/hbase« /value> 
« /property» 
«property» 
«name» hbase.cluster.distributed« /name> 
«value» true« /value> 
</property> 
<property> 
<name> hbase. zookeeper.quorum< /name> 
«value» mainl,main2,main3,main4« /value> 
</property> 
<property> 
<name> hbase.zookeeper .property.dataDir< /name> 
<value> /home/tseg/zookeeper_data/data< /value> 
</property> 
</configuration> 


要 注意 hbase. rootdir 参数 ,这 个 参数 的 前 面部 分 必须 与 Hadoop 集群 里 的 core-site. xml 


文件 里 fs. default. name 保持 一 致 。 由 于 HBase 不 识别 机 器 的 IP. value 中 填写 机 器 的 
hostname 即 可 。hbase. zookeeper. quorum 个 数 必须 为 奇数 ,这 样 才 能 选举 出 Leader, 
hbase. zookeeper. property. dataDir 为 数据 存储 路 径 , 可 由 用 户 自行 决定 。 | 


© 对 于 hbase-env. sh 文件 : 


export JAVA HOME- /home/tseg/java/jdk1.7.0_79 

export HBASE HOME- /home/tseg/hbase- 1.1.5 

export HADOOP HOME- /home/tseg/hadoop- 2.6.0 

export PATH- $ PATH: /home/tseg/hbase- 1.1.5/bin 

export HBASE MANAGES ZK- true 

在 文件 中 加 上 环境 变量 ,将 其 中 的 路 径 改 为 用 户 相应 的 路 径 。 
© 对 于 regionservers X ff: 

mainl 

main2 

main3 

main4 

在 文件 中 加 入 所 有 的 DataNode 节点 的 主机 名 称 。 

(3) 把 hadoop 中 的 hdfs-site. xml 文件 复制 到 HBase 的 conf 文件 夹 下 。 


$ cp ~ /hadoop- 2.6.0/etc/hadoop/hdfs- site.xml ~ /hbase-1.1.5/conf/ 
(4) 把 配置 好 的 HBase 用 scp 命令 复制 到 其 他 节点 。 


$ scp ~ /hbase-1.1.5 tsegemain2:/home/tseg/ 
$ scp ~ /hbase-1.1.5 tseg@main3:/home/tseg/ 
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$ scp ~/hbase-1.1.5 tseg@main4:/home/tseg/ 


(5) Zookeeper 安装 ,可 参照 第 5 章 。 
6.2.2 运行 模式 


HBase 运行 模式 有 两 种 : 单机 模式 和 分 布 式 模式 。 无 论 启动 什么 模式 ,都 必须 编辑 
HBase 安装 目录 中 conf 目录 下 的 hase-env. sh 文件 ,以 指定 运行 HBase 的 Java 安装 目录 。 

1. 单机 模式 

单机 模式 是 默认 模式 ,一切 事务 都 运行 在 单个 Java 进程 中 ,并 且 所 有 的 文件 默认 情况 
下 都 将 存储 在 /tmp 路 径 下 。 如 果 数 据 存储 在 默认 路 径 下 ,服务 器 一 旦 重启 ,测试 数据 就 会 
丢失 。 数 据 一 旦 被 操作 系统 删除 ,将 无 法 恢复 。 在 单机 模式 中 , HBase 并 不 使 用 HDFS, 仅 
使 用 本 地 文件 系统 。Zookeeper 程序 与 HBase 程序 运行 在 同一 个 JVM 进程 中 ,Zookeeper 
绑 定 到 客户 端的 常用 端口 上 ,以 便 客 户 端 可 以 与 HBase 进行 通信 。 以 单机 模式 运行 只 需 下 
载 解压 相应 的 HBase 版 本 ,配置 好 hase-env. sh 及 hbase-site. xml 文件 即 可 启动 运行 。 

2. 分 布 式 模式 

分 布 式 模式 可 以 进一步 细 分 成 伪 分 布 式 模式 (pseudo distributed) 一 一 所 有 守护 进程 都 运 
行 在 单个 节点 上 ,以 及 完全 分 布 式 模 式 (fully-distributed) 一 一 进程 运行 在 物理 服务 器 集群 中 。 

伪 分 布 式 模式 是 在 一 台 主 机 上 运行 所 有 进程 的 模式 ,需要 事先 启动 Hadoop。 启 动 
Hadoop 后 ,配置 hbase-site. xml 文件 为 以 下 内 容 , 其 他 与 单机 模式 相同 ,再 启动 即 可 。 





<configuration> 
«property» 
«name» hbase.rootdir« /name> 
«value» hdfs://localhost:9000/hbase« /value> 
</property> 
<property> 
<name> dfs.replication< /name> 
«value» 1</value> 
</property> 
< /configuration» 


完全 分 布 式 模式 是 用 户 在 多 台 主 机 中 进行 完全 分 布 式 操作 ,配置 参照 前 一 小 节 的 安装 配置 。 
6.2.3 集群 操作 


确认 服务 器 已 经 安装 好 ,并 配置 好 了 操作 系统 与 文件 系统 ,配置 文件 中 集群 所 需要 的 属 
性 ,用 户 可 以 启动 集群 进行 操作 。 

(1) 运行 Hadoop 安装 目录 下 的 bin/start-dfs. sh(bin/stop-dfs. sh) 来 启动 (关闭 )hadoop ΒΕ 
TE. FH ips 命令 查看 namenode 和 datanode 的 服务 是 否 正 常 启动 (关闭 )。 

(2) 运行 HBase 安装 目录 下 的 bin/start-hbase. sh(bin/stop-hbase. sh) 来 启动 (关闭 )HBase 
集群 : 通过 jps 查看 HMaster, HRegionServer 和 HQuorumPeer 的 服务 是 否 正 常 启动 (关闭 )。 

(3) 通过 HBase 的 命令 行 管理 界面 看 看 是 否 正常 ,如 图 6-6 所 示 。 

输入 help 并 按 Enter 键 能 够 得 到 所 有 shell 命令 和 选项 ,浏览 帮助 文档 可 以 看 到 每 个 
具体 的 命令 参数 的 用 法 (变量 、 命 令 参数 ) ,特别 注意 怎样 引用 表 名 ., 行 键 、 列 名 等 。 通 过 命令 


[tseg@nain1 ~]$ hbase shell 

SLF4J: Class path contains multiple 5147 bindings. 

SLF4J: Found binding in [jar:file:/home/tseg/hbase-1.1.5/1ib/s1f4j-1og4j12-1.7.5.jar!/org 
/s1£4j/imp1/StaticLoggerBinder.class] 


SLF4J: Found binding in [jar:file:/home/tseg/hadoop -2.6.0/share/hadoop/common/lib/slf4j-l 
0g4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder .class] 

SLF4J: See http://www.slf4j .org/codes.html#multiple bindings for an explanation. 

SLF4J: Actual binding is of type [org.slf4j .impl.Log4jLoggerFactory] 

2016-12-02 17:15:57, 162 WARN [main] util.NativeCodeLoader: Unable to load native-hadoop 
library for your platform... using builtin-java classes where applicable 

HBase Shell; enter 'help«RETURN-' for list of supported commands. 

Type “exit<RETURN>" to leave the HBase Shell 

Version 1.1.5, r239b80456118175b340b2e56235568b5c744252e, Sun May 8 20:29:26 PDT 2016 


hbase(main) :001:0> | 





图 6-6 HBase 命令 


了 界面 的 帮助 信息 








行 模式 可 以 实现 创建 表 、 新 增 和 更 新 数据 ,以 及 删除 表 等 操作 。 
可 以 通过 Web 页 面 http://mainl; 60010/master-status 来 管 
其 中 ,mainl 为 Master 运行 的 主机 名 ,如 图 6-7 所 示 





: 理 查 看 HBase 数据 库 。 
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Total: 
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Tasks 











No tasks currently running on this node. 





图 6-7 查看 HBase 





集群 启动 后 ,用 户 不 仅 可 以 通过 页 面 检查 region 服务 器 是 否 已 经 正常 注册 到 Master. 
并 以 期 望 的 主机 名 显示 在 页 面 中 (客户 端 能 够 连接 ) 。 在 此 页 面 中 ,显示 了 各 region 服务 器 
当前 的 状态 ,以 及 各 种 当前 任务 和 以 往 任务 等 。 


本 章 小 结 


本 章 详细 介绍 了 HBase 的 背景 .架构 .配置 安装 .运行 模式 及 集群 操作 ,让 读者 对 
HBase 各 方面 知识 有 基础 认 知 。 

(1) 通过 RDBMS 的 局 限 及 大 数据 下 的 时 代 需 求 ,介绍 了 HBase 项 目的 重要 性 及 时 代 
意义 。 

(2) 详细 介绍 了 HBase 的 整体 架构 及 其 中 每 个 组 成 部 分 的 作用 。 

(3) 简单 介绍 了 HBase 部 分 存储 功能 。 

(4) 详细 介绍 了 Java 版 本 、Hadoop 版 本 及 操作 系统 等 HBase 安装 前 的 必 备 条 件 , 并 且 
讲解 了 HBase 从 初始 到 最 终 配 置 完成 的 每 一 个 步骤 ,对 关键 步骤 详细 说 明了 注意 事项 。 

(5) 讲解 了 HBase 单机 模式 和 分 布 式 模 式 两 种 运行 模式 的 概念 ,并 介绍 了 如 何 配置 不 
同和 运行 模式 。 

(6) 详细 介绍 了 HBase 集群 的 开启 及 关闭 操作 命令 ,讲解 了 如 何 使 用 命令 行 管理 界面 
及 Web 页 面 查看 HBase 集群 情况 。 


习 题 
a) 以 FC ) 是 HBase 组 件 。 
A. Spark B. Hadoop C. Zookeeper D. Hive 
(2) WFC ) 操 作 系 统 不 支持 HBase 集群 。 
A. CentOS B. Windows C. Ubuntu D. Fedora 


(3) 描述 RDBMS 与 NoSQL( 非 关系 型 数据 库 系统 ) 的 相同 处 与 不 同 处 。 
(4) 画 出 HBase 的 流程 图 ,并 说 明 。 

(5) HBase 两 种 运行 模式 是 什么 ?请 分 别 说 明 。 

(6) HBase 集群 操作 有 哪些 ,分 别 是 什么 功能 ? 


HBase 基础 操作 


HBase 的 主要 客户 端 接口 是 由 org. apache. hadoop. hbase. client 包 中 的 HTable 类 提 
供 的 ,用 户 可 以 完成 向 HBase 存储 和 检索 数据 ,以 及 删除 无 效 数 据 之 类 的 操作 。 


71 CRUD 操作 

数据 库 的 基本 操作 通常 被 称 为 CRUD (Create. Read. Update. Delete) ,具体 指 增 、 查 、 
BCH. HBase 中 有 与 之 相对 应 的 一 组 操作 ,这 些 方法 都 由 H Table 类 提供 ,下 面 将 依次 
介绍 。 


7.1.1 Put 操作 


Put 类 中 主要 含有 一 个 KeyValue 对 象 数 组 ,KeyValue 对 象 是 HBase 底层 存储 的 一 个 
重要 类 ,代表 数据 在 底层 存储 时 的 状态 。KeyValue 对 象 代 表 HBase 表 中 的 一 个 数据 单元 ， 
包含 行 值 (row) , Ji 36 (family) , 31 (column) , 时间 戳 (timestamp) 和 值 Cvalue) 等 信息 ,并 以 
这 些 信 息 确 定 表 中 的 唯一 一 个 数据 单元 。 当 搬入 一 条 数据 时 ,其 实 就 是 KeyValue 进行 序 


列 化 ,然后 传递 HBase 集群 ,集群 再 根据 KeyValue 的 值 进行 相应 的 操作 。 


Put 类 提供 的 方法 如 表 7-1 所 示 。 
表 7-1 
方 ” 法 


Put 类 提供 的 方法 


d æ 





PutCbyte[ ] row)/Put(byte[ ] row. RowLock lock) 


构建 Put 实例 , 设 定 行 键 /构建 Put 实例 , 设 定 行 键 ， 
定义 行 锁 





add(byte[ ] family, byte[ ] qualifier. byte[ ] value)/ 
add( byte[ ] family. byte[ ] qualifier. long ts. byte[ ] 
value) /addColumn (byte[ ] family. byte[ ] qualifier. 
long ts. byte[ ] value) 


向 Put 3c ff] rp 1 s Sb HAS DP 6.7}. {ἑ/[} Put 实例 
中 特定 地 添加 列 得、. 列 时间 戳 、 值 /向 Put 实例 中 特 
定 地 添加 列 复 、 列 .时 间 戳 、 值 





getTimeStamp( ) 


返回 Put 实例 的 时 间 戳 ,默认 值 为 Long. MAX. VALUE 





has(byte[ ] family,byte[] qualifier) /hasCbyte[ ] 
family. byte[ ] qualifier. byte[ ] value) 


检查 是 否 存在 指定 单元 格 /检查 ,是 否 存在 包含 value 
值 的 指定 单元 格 





setWriteToWAL(boolean write) 





开启 或 关闭 服务 器 端 数据 预 写 日 志 (Write Ahead- Log) 





大 数据 
[ου ος 

















Hk 
方 Ὁ 描 æ 
getRow() 返回 创建 Put 实例 时 指定 的 行 键 
numFamilies() 返回 所 有 Key Value 实例 中 的 列 复数 量 
isEmpty() 查询 Put 中 是 否 含有 任何 Key Value 实例 
Size() 返回 Put 中 所 含 KeyValue 实例 的 数量 


HBase 客户 端 拥 有 多 重 方式 进行 数据 插入 ,通过 调整 不 同 的 属性 从 而 实现 不 同 插 人 
方式 。 

1. void put(Put p) throws IOException 

该 方法 向 表 中 添加 一 行 数据 。 在 此 过 程 中 会 发 送 一 次 RPC 操作 进行 请 求 ,并 将 Put 中 
的 数据 序列 化 以 后 传送 给 相应 的 服务 器 进行 数据 插入 。 

2. boolean checkAndPut(byte[ ] row, byte[ | family, byte[ ] qualifier. byte[ ] value. 
Put p) throws IOException 

该 方法 提供 了 一 种 原子 性 操作 , 即 该 操作 如 果 失 败 , 则 操作 中 的 所 有 更 改 都 失效 。 该 函 
数 在 多 个 客户 端 对 同一 个 数据 进行 修改 时 将 会 提供 较 高 的 效率 。 

3. void put(List < Put < plist ) throws IOException 

该 方法 在 批量 插入 中 生成 一 个 List 容器 ,然后 将 多 行 数据 全 部 转载 到 该 容器 中 ,然后 
通过 客户 端的 代码 一 次 将 多 行 数据 进行 提交 。 

4. void flushCommits() throws IOException 

该 方法 实现 了 缓冲 区 的 刷 写 功能 。 因 为 每 一 次 Put 操作 都 要 执行 一 次 RPC 操作 ,RPC 
操作 的 时 间 开 销 在 处 理 大 量 数据 时 会 成 为 一 个 极 大 负担 。 为 了 解决 这 个 问题 ,HBase 提供 
了 写 缓冲 区 。 缓 冲 区 大 小 可 由 客户 端 自 行 设置 ,用 户 提交 的 Put 操作 将 由 缓冲 区 负责 收集 。 
接着 在 缓冲 区 溢出 或 主动 调用 刷 写 功 能 时 ,缓冲 区 调用 RPC 操作 一 次 性 将 所 有 Put 操作 送 
往 服务 器 。 

【代码 实例 1] 


import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.hbase.HBaseConfiguration; 
import org.apache.hadoop.hbase.client.Get; 

import org.apache.hadoop.hbase.client.HTable; 
import org.apache.hadoop.hbase.client.Put; 

import org.apache.hadoop.hbase.client.Result; 
import org.apache.hadoop.hbase.util.Bytes; 

import java.io.IOException; 

import java.util.ArrayList; 

import java.util.List; 


public class test hbase { 
public static void main(String| ] args) throws IOException 
t 


Configuration conf = HBaseConfiguration.create(); 

conf.set ("hbase.zookeeper.quorum", "mainl");(D 

HTable table = new HTable (conf, "test") ;@ 

table.setAutoFlush (false) ;@ 

Put put = new Put (Bytes. toBytes ("row1")) ;@ 

put .add (Bytes. toBytes ("col 1") , Bytes. toBytes ("ql") ,Bytes. toBytes ("v1") );@ 

put .add (Bytes. toBytes ("coll") , Bytes. toBytes ("q2") , Bytes. toBytes ("v2") ) + 

List«Put» puts = new ArrayList« Put» ();® 

Put putl = new Put (Bytes.toBytes ("row2")); 

put .add (Bytes .toBytes ("coll") , Bytes.toBytes ("ql") , Bytes.toBytes ("v3") ) ; 

puts.add (put1) 2. 

Put put2 = new Put (Bytes.toBytes ("row3")) ; 

put2 .add (Bytes. toBytes ("coll") , Bytes.toBytes ("ql") ,Bytes.toBytes ("v4") ) ; 

puts.add (put2) ; 

Put put3 = new Put (Bytes.toBytes ("row4")) ; 

put3.add (Bytes .toBytes ("coll") Bytes .toBytes ("ql") , Bytes.toBytes ("v5") ) ; 

table.put (put) ; 

table.put (puts) ;® 

Get get - new Get (Bytes.toBytes ("rowl")); 

Result resl = table.get (get) ; 

System.out.println ("Result:"+ τες1) ;(9) 

table.flushCommits () 248) 

Result res2 - table.get (get) ; 

System.out.println("Result:"4 res2);() 

boolean res3 = table.checkAndPut (Bytes .toBytes ("row1") ,Bytes.toBytes ("coll"), 
Bytes.toBytes ("q1"),null,put); 

table.flushCommits(); 

System.out.println ("Put applied:"+ res3) πρ] 

boolean res4 = table.checkAndPut (Bytes .toBytes ("row4") , Bytes .toBytes ("coll"), 
Bytes.toBytes ("q1"),null,put3); 

table.flushCommits(); 

System.out.println ("Put applied:"+ res4);(3 








} 


其 中 ,@ 创 建 配置 ; @ 实 例 化 一 个 客户 端 ; @@ 将 自动 刷 写 设置 为 false, 启 用 客户 端 写 缓 
冲 区 ; @ 指 定 一 行 创建 Put 实例 ; OH Put 中 添加 一 个 名 为 col: ql 的 列 ; @ 创 建 一 个 Put 
实例 列表 ; 将 一 个 Put 实例 添加 到 列表 中 ; @ 前 一 行将 Put 实例 存 人 HBase 表 中 ,此 行 
将 列表 中 的 所 有 实例 添加 到 HBase 表 中 ; @ 加 载 先 前 存储 的 行 ,因为 未 在 表 中 找到 ,结果 
会 打印 出 Result: keyvalues=NONE. “ΠΗ͂ 7-1 所 示 ; @ 四 强制 刷 写 缓冲 区 ,产生 一 个 RPC 请 
求 ,将 之 前 的 Put 操作 执行 ; @@ 同 样 加 载 先 前 存储 的 行 , 因 前 一 步 数据 已 经 被 持久 化 , 故 可 
以 读 取 到 ,打印 出 行 信息 ; 四 检查 指定 列 是 否 存 在 于 HBase 表 中 来 决定 是 否 执行 Put 操作 。 
此 处 指定 列 已 存在 ,未 能 成 功 执行 且 输 出 false; @ 此 处 因 指 定 在 表 中 列 不 存在 , 故 成 功 执 行 
Put 操作 且 输 出 true, 如 图 7-2 所 示 。 





hbase(malin):661:6> scan ‘test* 
ROW 
© row(s) in 0.4499 seconds 


hbase(main) :962:6> scan ‘test’ 

ROW 

rowl 1, timestamp=1490584200210, value-vl 
rowl column-coll:q2, timestamp-1490584200210, value-v2 
row2 column-coll:ql, timestamp-1490584200210, value-v3 
row3 column-coll:ql, timestamp-1490584200210, value-v4 
row4 column-coll:ql, timestamp-1490584200262, value-v5 
4 row(s) in 0.0540 seconds 





图 7-1 执行 前 后 存储 结果 





“C:\Program Files\Java\jdki.7.0_80\bin\java” 

lLogij: WARN No appenders could be found for logger (org apache. hadoop. netrics2.lib MutableMetricsFactory) 
lLogij: WARN Please initialize the logij system properly 

Logij:WARN See http://logging apache. org/logij/1.2/faq html#noconfig for more info 

[Result :keyvalues=NOIE 
Result: keyvalues={row!/coll : q1/1490581955184/Put/vlen=2/seqid=0, rowl/coll:q2/1190581955181/Put/v1en-2/seqi d=0) 
Put applied: false] 
































Put applied: true 














Process finished with exut code 0 








7.1.2. Get 操作 


用 户 使 用 Get 类 查询 时 ,从 HBase 获取 的 查询 结果 中 每 一 行 数据 会 作为 一 个 Result 对 
象 ,数据 将 存 和 人 对 应 Result 实例 中 。 用 户 需 要 获取 一 行 数据 时 读 取 该 行 数据 所 在 的 Result 
对 象 。 该 对 象 内 部 了 一 个 KeyValue 对 象 数组 

Get 类 提供 的 方法 见 表 7-2。 








表 7-2 Get 类 提供 的 方法 
;. 8 18 述 
构建 Get 实例 ,设置 行 键 / 构 建 Get 实例 ,并 设置 行 
键 .定义 行 锁 
Get 请 求 时 返回 的 指定 列 徐 /指定 Get 请 求 时 





Get(byte[ ] row) /GetCbyte[ ] row. RowLock lock) 








addFamilyCbyte[ ] family) /addColumn ( byte[ ] 

















family.byte[ ] qualifier) 返回 的 指定 列 
setTimeStamp(long timestamp) ig ve ΠΗ [8] fl 
setTimeRange(long minTime.long maxTime) 38 x EST [Η] AL {9 E ΠΗ͂ 

ne . uu 者 定 返 回 确切 版 本 数 的 数据 /指定 返回 所 有 版 本 的 
setMaxVersion(int version) /setMaxVersion( ) : 

数据 

getRow() 返回 创建 Get 实例 时 指定 的 行 键 
hasFamilies() 检查 列 簇 或 列 是 否 存在 于 当前 的 Get 实例 中 











HBase 客户 端 拥有 多 重 方式 进行 数据 查询 ,通过 调整 不 同 的 属性 从 而 实现 不 同 查询 方式 。 

1. Result get(Get g) throws IOException 

Get 操作 是 通过 row 参数 来 指定 所 要 获取 的 行 。 虽 然 一 次 Get 操作 只 能 取 一 行 数据 ,但 
不 会 限制 在 一 行 中 取 多 少 列 或 者 多 少 单元 格 。 每 次 RPC 请 求 只 发 送 一 个 Get 对 象 中 的 数据 。 








2. Result[ ] get(List < Get > gets) throws IOException 

多 行 获取 实质 就 是 用 户 需要 创建 一 个 列表 List < Get >, 并 把 之 前 准备 好 的 Get 实例 添 
加 到 其 中 ,然后 对 List < Get > 实例 进行 迭代 ,从 而 发 送 多 次 数据 请 求 ( 即 多 个 RPC 请 求 与 
数据 操作 ,一 次 请 求 包含 一 次 RPC 请 求 和 一 次 数据 传输 ) 。 

3. Result getRowOrBefore(byte[ ] row.bytel family) throws IOException 

getRowOrBefore 方法 会 查找 行 键 family Xr EET row ΠΙΊ18 πὲ B RA RR [Pls 若 
不 存在 行 vow 则 返回 已 排 好 序 的 表 中 具有 行 键 family 的 最 后 一 条 结果 。 若 找 不 到 任何 包 
AITHE family 的 结果 则 返回 null, 

【代码 实例 2] 





import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.hbase.HBaseConfiguration; 
import org.apache.hadoop.hbase.KeyValue; 
import org.apache.hadoop.hbase.client.Get; 
import org.apache.hadoop.hbase.client.HTable; 
import org.apache.hadoop.hbase.client.Put; 
import org.apache.hadoop.hbase.client.Result; 
import org.apache.hadoop.hbase.util.Bytes; 
import java.io.IOException; 
import java.util.List; 
public class test hbase ( 
private static byte | cl = Bytes.toBytes ("coll"); 
private static byte[ | ql = Bytes.toBytes ("ql"); 
private static byte[ | q2 = Bytes.toBytes ("q2"); 
private static byte[ | τον] = Bytes.toBytes ("rowl"); 
private static byte[ | row2 = Bytes.toBytes ("row2"); 
private static byte[ | row3 = Bytes.toBytes ("row3") ;D 
public static void main(String| ] args) throws IOException ( 
Configuration conf = HBaseConfiguration.create(); 
conf.set ("hbase.zookeeper.quorum", "mainl"); 
HTable table = new HTable (conf, "test") ; 
Get get = new Get (rowl); 
get .addColumn (c1, ql) ; 
Result resl = table.get (get); 
byte ] vali = resl.getValue (cl,q1); 
System.out.println("value: "+ Bytes.toString(vall));(Q) 
Get getl = new Get (rowl); 
get .addColumn (Bytes.toBytes ("NotExist"),ql); 
Result res2 = table.get (get1) 7 
byte[ ] val2 = res2.getValue (Bytes .toBytes ("NotExist") ,ql); 
System.out.println("value: "+ Bytes.toString (val2));( 
List<Get> gets = new ArrayList«Get» (); (5) 
Get get2 = new Get (rowl); 
get.addColumn (cl,q2) ; 





gets .add (get2) ; (6) 
Get get3 — new Get (row2) ; 
get.addColumn (cl, ql); 
gets .add (get3) ; 
Get get4 = new Get (row3) ; 
get .addColumn (cl, ql); 
gets.add (get4) ; 
Result[] res3 = table.get (gets); 
for (Result res:res3) { 
for (KeyValue kv : res.raw()) { 


System.out.println("Row: "+ Bytes.toString(kv.getRow()) + ";Value "+ Bytes. 


toString (kv.getValue())); 


} 


} 
1@ 


Result res4 = table.getRowOrBefore (rowl,cl); 
System.out.println("Found: "+ Bytes.toString(res4.getRow ()) ) ; (8 
Result res5 = table.getRowOrBefore (Bytes.toBytes ("noexist"),cl); 
System.out.println("Found: "+ τες») ;Qo 


其 中 ,@ 预 先 准 备 共 用 频率 高 的 字 节 数组 ;四 指定 行 键 创建 一 个 Get Sc PIDE SP s 
图 从 HBase 表 中 获取 指定 列 的 行 数据 ,并 打印 输出 ; @ 从 HBase 表 中 以 Get() 方 法 获取 不 
存在 的 行 数据 ,结果 打印 出 null; @ 创 建 一 个 Get 实例 列表 ; @ 将 一 个 Get 实例 添加 到 列表 
中 ; 遍历 结果 ,打印 读 取 的 所 有 结果 ; OMA HBase 表 中 以 getRowOrBefore 方法 获取 指定 
列 名 中 每 一 行 数据 值 .并 打印 输出 ; @ MM HBase 表 中 以 getRowOrBefore 方法 获取 不 存在 
的 行 数据 ,结果 打印 出 null, 如 图 7-3 所 示 。 


Row: 





“C:\Program Files\Java\jdki.7.0_80\bin\java” ... 
logij:WARN No appenders could be found for logger (org. apache. hadoop. metrics2. lib. MutableMetricsFactory| 
logij:WARN Please initialize the logij system properly. 

logij:WARN See http://logging. apache. org/1ogij/1.2/faq html#noconfig for more info. 
value: vl 

value: null 
:orowl;Value vl 
: rowl;Value v2 
| row2;Value v3 


row3;Value v4 


Found: rowl 
Found: null 








图 7-3 Get 结果 


7.1.3 Delete 操作 


Delete 类 与 Put 类 的 功能 相 逆 , 但 结构 相似 。Delete 类 也 含有 一 个 KeyValue 对 象 数 
组 , 且 操作 都 是 对 此 数组 进行 。 
Delete 类 提供 的 方法 如 表 7-3 所 示 。 


5 7-3 Delete 类 提供 的 方法 


方 Ὁ 


fi æ 





Delete( byte[ ] row)/Delete (byte[ ] row. long 


timestamp, RowLock lock) 


构建 Delete 实例 ,设置 行 键 /构建 Delete 实例 ,并 设 
置 行 键 ,添加 时 间 惟 ,定义 行 锁 





DeleteRamily(bytel] family) /DeletColumin (byte. ] 
family, byte[ ] qualifier) 


指定 Delete ΒΕΥΕΠΗ 1 PR 19 38 πε 9l f /18 HE Delete 操 
作 时 删除 的 指定 列 





getTimeStamp(long timestamp) 


检索 Delete Sz fA) HY [8] fk 





getRow() 


返回 创建 Delete 实例 时 指定 的 行 键 





hasFamilies() 


检查 列 艇 或 列 是 否 存在 于 当前 的 Delete 实例 中 





查询 Delete 中 是 否 含有 任何 用 户 所 指定 想 要 删除 的 


isEmpty() 列 或 列 艇 





HBase 客户 端 同样 提供 了 多 种 Delete 删除 方法 ,包含 单行 删除 .多 行 删除 等 。HBase 
中 的 一 次 Delete 操作 不 会 立刻 将 HBase 存储 的 相应 数据 删除 ,只 会 在 相应 的 KeyValue 存 
储 单元 上 打上 删除 标记 。 等 到 下 一 次 region 合并 、 分 裂 等 操作 时 才 会 将 所 有 的 数据 进行 
移 除 。 

l. void delete(Delete d) throws IOException 

通过 新 建 Delete 实例 ,接着 以 上 面 所 提供 的 方法 将 不 同 参数 设 定 到 实例 中 ,用 来 指定 
对 某 一 行 的 某 一 个 列 簇 . 某 一 个 列 、 某 一 个 列 中 具体 版 本 的 数据 进行 删除 。 

2. void delete(List < Delete ds) throws IOException 

列表 删除 与 之 前 的 列表 获取 相似 , 先 创建 一 个 列表 List < Delete > ,并 把 之 前 准备 好 的 
Delete 实例 添加 到 其 中 ,然后 通过 客户 端的 代码 一 次 将 多 行 数据 进行 删除 。 

3. boolean checkAndDelete(byte[ | row.byte[ | family,byte[ | qualifier,byte[] value. 
Delete d) throws IOException 

checkAndDelete 方法 与 之 前 的 checkAndPut 方法 相似 , 同 是 原子 性 操作 , 即 如 果 检 查 
不 到 特定 单元 格 , 则 不 执行 删除 操作 ,并 返回 false; 如 果 检 查 成 功 , 则 会 执行 删除 操作 ,并 返 
回 true。 


【代码 实例 3】 





private static byte[ | cl = Bytes .toBYytes ("coll"); 
private static bytel ] c2 — Bytes.toBytes ("co12"); 
private static byte[ ] ql = Bytes.toBytes ("ql"); 
private static bytel ] q2 = Bytes.toBytes ("q2") ; 
private static byte[ ] q3 = Bytes.toBytes ("q3") ; 
private static bytel ] τον] = Bytes.toBytes ("rowl"); 
private static bytel ] row2 — Bytes.toBytes ("row2"); 
private static bytel ] row3 — Bytes.toBytes ("row3") AO) 
public void hbase_delete() throws IOException( 
Configuration conf = HBaseConfiguration.create(); 


conf.set ("hbase.zookeeper.quorum", "mainl"); 
HTable table = new HTable (conf, "test"); 
Delete delete — new Delete (rowl); 
delete.deleteColumns (c1,q1) ;@ 


大 数据 
” ”实时 计算 与 应 用 Ἢ 


List<Delete> deletes = new ArrayList< Delete» ();G 
Delete deletel = new Delete (row2) 7 
deletel.deleteFamily (c2) ; (4 
deletes.add (delete); 
deletes.add (deletel) ;© 
Delete delete2 = new Delete (row2) ; 
delete2.deleteColumn (c2,q1); 
boolean resl = table.checkAndDelete (row2, c2, q1, null, delete2) ;@ 
System.out.println("Delete: "+ resl); 
table.delete (deletes);(7) 
boolean res2 = table.checkAndDelete (row2,c2,q1,null,delete2); 
System.out.println("Delete: "+ res2);(8 
table.close(); 

) 


其 中 ,@ 预 先 准 备 共 用 频率 高 的 字 节 数 组 ;四 创建 针对 特定 行 的 Delete 实例 并 指 
定 删除 列 的 全 部 版 本 ; 四 创建 一 个 Delete 实例 列表 ; © 0 AE ἩΓ ΧΗ 行 的 Delete 实例 
并 指定 删除 的 整个 列 簇 ,包括 所 有 的 列 和 版 本 ; * Delete 实例 添加 到 列表 中 ，; 
@ 通 过 checkAndDelete 检查 指定 列 是 否 不 存在 , 若 检查 成 功 , 则 执行 删除 操作 ,并 返回 
true; 否则 ,不 执行 删除 操作 ,并 返回 false, 此 处 显示 为 false; OM HBase P ps Ἐκ 
据 ; 图 因为 此 处 指定 列 已 被 删除 .所 以 checkAndDelete 显示 为 true. {ΠΗ͂ 7-4 和 图 7-5 
所 示 。 























“C:\Program Piles\Java\jdkl.7.0_80\bin\java” 

logij:WARI No appenders could be found for logger (org. apache. hadoop. metrics2. lib. MutableMetricsFactory) 
logij:WAR Please initialize the logij system properly 

logtj: WARN See http://logging. apache. org/log4i/1 2/faq htmlfnoconfig for more info 

Delete: false 











Delete: true 





图 7-4 Delete 程序 执行 结果 


hbase(main):081:0» scan 'test',{VERSIONS => 3} 
Q 


NU 
value-vl 


row3 column=col2:ql, timestamp-1490671281055, 
row4 column-coll:ql, timestamp-1490669339954, 
4 row(s) in 0.0390 seconds 


hbase(main):082:0» scan 'test', (VERSIONS 3} 
ROW COLUMN+CELL 
rowl column-coll:q2, timestamp-1490671281055, value=v2 
rowl column-col2:q1, 490671281055, value-vl 
row2 column-coll:ql, 490671281055, value=v3 
row3 colum 11:41, 490671281055, value-v4 
row3 column-col2:ql, 490671281055, value-v4 
row4 column-coll:ql, 490669339954, value-v5 
4 row(s) in 6.6316 seconds 


* 所 删除 数据 在 图 中 已 框 出 











7.2 批 处 理 操作 


之 前 一 些 基 于 列表 的 操作 ,如 delete(List< Delete > ds) KF get(List< Get > gs) ,都 是 
基于 批 处 理 操作 batch 方法 实现 的 。 
HBase 客户 端 提供 了 如 下 批量 处 理 操作 
Void batch (List<Row> actions,Object| | results) 
throws IOException, InterruptedException 


Object [ ] batch (List<Row> actions) 
throws IOException, InterruptedException 


其 中 ,Row 是 Put, Get 和 Delete 类 的 父 类 。 使 用 前 者 用 户 可 以 访问 部 分 结果 ,而 使 用 
后 者 则 不 可 以 。 

HBase 的 batch 操作 中 不 可 以 将 针对 同一 行 的 Put 和 Delete 操作 放 在 同一 个 批量 处 理 
请 求 中 ,batch 中 操作 的 处 理 顺 序 不 同 ,可 能 会 产生 不 一 样 的 结果 。 当 用 户 使 用 batch() 功 
能 时 ,Put 实例 不 会 被 客户 端 写 人 缓冲 区 缓冲 。batch 请 求 是 同步 的 ,会 把 操作 直接 发 送 到 
服务 器 端 ,这 个 过 程 没 有 什么 延迟 或 其 他 中 断 操 作 。 

batch 操作 的 返回 结果 如 表 7-4 所 示 。 


表 7-4 batch 操作 的 返回 结果 

















结 m d 3 
null 连接 远程 服务 器 失败 
EmptyResult Put 或 Delete 操作 成 功 
Result Get 操作 成 功 。 若 没有 查询 的 行 或 列 , 则 返回 空 的 Result 
Throwable 服务 器 端 产生 异常 
【代码 实例 4] 


private static byte[ | cl = Bytes.toBytes ("col1"); 
private static byte[ ] c2 = Bytes.toBytes ("col2"); 
private static byte[ ] ql = Bytes.toBytes ("ql"); 
private static byte[ ] q2 - Bytes.toBytes ("q2") ; 
private static byte[ ] q3 - Bytes.toBytes ("q3") ; 
private static byte[ ] τον] = Bytes.toBytes ("rowl"); 
private static byte[ ] row2 = Bytes.toBytes ("row2"); 
private static bytel ] row3 = Bytes.toBytes ("row3") ;D 
public void hbase batch ()throws IOException{ 

Configuration conf = HBaseConfiguration.create(); 

conf.set ("hbase.zookeeper.quorum", "mainl"); 

HTable table = new HTable (conf, "test"); 

List<Row> batch = new ArrayList« Row» ();@) 

Put put — new Put (row2) ; 

put.add(c2,q1,Bytes.toBytes ("v6") ) ; 

batch.add (put) ;) 

Get get — new Get (rowl); 

get.addColumn (Cl, q2) ; 

batch.add (get) ; (D 

Delete delete = new Delete (row3); 


大 数据 
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delete.addColumn (cl, ql) ; 
batch.add (delete) ; 
Get getl = new Get (rowl); 
get1.addFamily (Bytes .toBytes ("NoExist")); 
batch.add (get1) ;® 
Object[ | res = new Object[ batch.size()]; 
try{ 
table.batch (batch, res) ; 
} catch (Exception event) { 
System.out.println("Event: "+ event) ;@ 





} 
for(int i= 0;i< res.length;i++ ) 
System.out.println ("res "+ i+ ": "+ res[i]);(9 
table.close(); 
j 
其 中 ,四 预先 准备 共用 频率 高 的 字 节 关 
@ 向 列表 中 添加 一 个 Put 实例 ,对 户 四 向 列表 中 添加 一 个 Ger 实例 ,对 应 结果 
res 1; @ 向 列表 中 添加 一 个 Delete ires 2; @ 向 列表 中 添加 一 个 查找 不 存在 
数据 的 Put 实例 ,对 应 结果 res 3; 四 创建 存储 结果 的 数组 ; @ 输 出 捕获 的 异常 ; @ 输 出 
个 batch 操作 所 获取 的 结果 ,如 图 7-6 ἘΠ ; 


BE 
Lad 
B 





创建 一 个 可 以 存放 所 有 操作 的 列表 ; 











7-7 所 示 





0: keyvalues=NONE 
1. keyvaluesz(rowi/coli. q2/1490671281055/Put/vlen=2/seqi d=0} 
res 2: keyvalues=NONE 
3: org apache. hadoop. hbase. regi onserver. NoSuchColumnF amilyException: or apache. hadoop. hbase. regionserver. NoSuchColumnF 


at org apache. hadoop. hbase. regionserver. HRegion. checkF amily ( ) 


at org. apache. hadoop. hbase. regionserver. HRegion. get ( ) 

at org apache. hadoop. hbase. regionserver. RSRpcServices. dolonAtomi cRegi onlutati on ( 582) 

at org, apache. hadoop. hbase. regi onserver. RSRpcServices. multi Q ) 

at org apache. hadoop. hbase. protobuf. generated Cli entProtos$Cli entServi ce$2. callBlockingMethod ( ) 


at org. apache. hadoop. hbase. ipe. RpcServer. call ( ) 
at org. apache. hadoop. hbase. ipe. Call Runner. run ( ) 

at org, apache. hadoop. hbase. ipc. RpcExecutor. consumerLoop ( ) 
at org. apache. hadoop. hbase. ipc. RpcExecutor$1. run ( ) 

at java. lang. Thread. run( ) 











图 7-6 batch 程 上 





hbase(main) :090:0> scan ‘test’, {VERSIONS => 3} 
COLUMN«CELL 
column-coll , timestamp-1490671281055, value-v2 
column: timestamp-1490671281055, 


column-col2 , timestamp-149067128105: 
column-coll: timestamp-1490669339954, 
4 row(s) in 0.0300 seconds 


hbase(main) :@91:@> scan 'test',(VERSIONS => 3} 
COLUMN+CELL 
column-coll: timestamp-1490671281055, 
timestamp-1490671281055, 
timesta 


E 
column=col2:ql, timestamp=1490671281655, 
column-coll:ql, timestamp-1490669339954, 


4 row(s) in 0.0310 seconds 





* 前 一 个 框 是 删除 数据 ， 后 一 个 框 是 插入 数据 


图 7-7 程序 运行 前 后 数据 
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服务 器 在 串 行 方式 的 执行 中 ,每 一 个 操作 都 必须 保证 是 原子 性 的 。HBase 利用 行 锁 来 
保证 这 一 特性 。 在 使 用 行 锁 时 需要 十 分 谨慎 ,因为 两 个 客户 端 很 可 能 同时 被 对 方 锁 住 ,而 且 
只 有 对 方 能 解 开锁 ,形成 一 个 死 锁 。 

HBase 客户 端 提 供 了 以 下 API 对 单行 数据 的 多 次 操作 进行 加 锁 。 

RowLock lockRow (byte[ ] row) throws IOException 

void unlockRow(RowLock r) throws IOException 

前 者 需要 将 一 个 行 键 作 为 参数 ,生成 一 个 RowLock 实例 。 若 不 要 锁 , 则 需要 使 用 
unlockRow 操作 来 解锁 。 锁 必须 针对 整 行 ,并 且 指 定 其 行 键 ,一 旦 它 获 得 锁定 权 就 能 防止 
其 他 并 发 修改 。 

【代码 实例 51 


static class UnlockPut implements Runnable {0 
public void run() ( 


try { 
Configuration conf = HBaseConfiguration.create () ; 
conf .set ("hbase.zookeeper.quorum", "mainl"); 
HTable table = new HTable(conf, "test"); 
Put put = new Put (rowl); 
put.add(cl, ql, Bytes.toBytes ("vl") ); 
long time = System.currentTimeMillis (); 
System.out.println ("Thread trying to put same row now..."); 
table.put (put) ; 
System.out.println("Wait time: "+ (System.currentTimeMillis()- time) + "ms"); 
} catch (IOException event) { 
System.err.println ("Thread error: "+ event); 
} 


public static void main(String| | args) throws IOException { 
Configuration conf = HBaseConfiguration.create(); 
conf.set ("hbase.zookeeper.quorum", "mainl"); 
HTable table = new HTable (conf, "test"); 
System.out.println ("Taking out lock..."); 
RowLock lock = table.lockRow (rowl);(3) 
System.out.println("Lock ID: "+ lock.getLockId()); 
Thread thread = new Thread (new UnlockPut ()) ; (D 
thread.start (); 
try{ 


System.out.println ("Sleeping 5secs in main..."); 
Thread.sleep (5000) ;© 
}catch (InterruptedException event) { 





//ignore 


tryt 
Put put1 = new Put (rowl, lock) ; (6) 
putl.add(cl,ql,Bytes.toBytes ("v1")); 
table.put (put1l); 
Put put2 = new Put (rowl, lock) ;@ 
putl.add(cl,ql,Bytes.toBytes ("v2") ) ; 
table.put (put2) ; 

}catch (Exception event) { 
System.out.println("Event: "+ event); 

)finally ( 
System.out.println ("Releasing lock..."); 
table.unlockRow (lock) ;® 

I 

} 


其 中 ,@ 使 用 一 个 异步 线程 更 新 同一 行 ,不 显 式 加 锁 ; @ Put 调用 被 阻塞 ,直到 锁 被 释 
Ks © 给 整 行 加 锁 ; (Ὁ 启动 会 阻塞 的 异步 线程 ; @ 休眠 以 阻塞 其 他 写 入 操作 ; © 在 拥有 
锁 使 用 权 的 情况 下 创建 Put; C) 在 拥有 锁 使 用 权 的 情况 下 创建 另 一 个 Put; © 释放 锁 ,让 
阻塞 线程 继续 执行 ,如 图 7-8 所 示 。 
“C:\Program Piles\Java\jdki.7.0_80\bin\jave” .. 


Taking out lock... 
Lock Id... 


Sleeping Ssecs in main... 


Thread trying to put same row now... 
Releasing lock... 
Wait time: 5013ms 


T8 程序 执行 结果 


一 个 客户 端 想 要 对 另 一 客户 端 加 锁 的 数据 进行 修改 时 ,必须 等 待 直 到 锁 被 释放 或 锁 的 
时 间 超 时 。 
默认 的 锁 超时 时 间 是 一 分 钟 ,但 可 以 在 Hbase-site. xml 文件 中 添加 以 下 配置 项 来 修改 
这 个 默认 值 ,时 间 以 毫秒 为 单位 。 
<property> 
«name» hbase.regionserver.lease.period < /name» 
«value» 120000 < /value> 
</property> 
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Put, Delete 与 Get 都 只 能 进行 单行 操作 。 为 了 能 够 快速 对 整 张 表 进行 扫描 以 获取 想 要 
的 结果 ,HBase 客户 端 提供 了 一 个 Scan 的 API 来 实现 。 


Scan 实例 的 创建 有 显 式 和 隐 式 两 种 ,如 表 7-5 所 示 。 
表 7-5 Scan 实例 的 两 种 模式 
fe Ἀ 显 X 


Scan(byte[ | startRow. Filter filter) 








ResultScanner getScanner(byte[ | family) throws 
n z =e n(bytel ] à ΓΕ Scan(byte[ | startRow) 
IOException 





ResultScanner getScanner(byte[ ] family. byte 3 
ion s xd ud LJ family, bytel ] Scan(Cbyte[ | startRow.byte[ | stopRow) 
qualifier) throws IOException 





采用 显 式 方 法 创建 Scan 实例 时 .用户 可 以 通过 startRow 参数 来 指定 扫描 读 取 H Base 
表 的 起 始 行 键 ,而 不 需 指定 行 键 。 扫 描 的 区 间 包 含 起 始 行 ,而 没有 终止 行 。 若 提供 的 参数 没 
有 精确 匹配 ,扫描 会 匹配 相等 或 大 于 给 定 的 起 始 行 的 行 键 。 隐 式 创 建 方式 即 调用 一 次 列表 
扫描 方法 ,ResultScanner 对 象 会 在 扫描 请 求 发 送 前 隐 式 地 创建 一 个 Scan 对 象 。 

创建 Scan 实例 后 ,用 户 可 以 通过 表 7-6 中 HBase 提供 的 相关 APT 向 实例 中 添加 限制 








条 件 。 
表 7-6 HBase 提供 的 相关 API 
方 法 d xk 
addFamilyCbyte[ ] family) /addColumn Cbyte[ ] | 指定 Scan 操作 时 读 取 的 指定 列 簇 /指定 Scan 操作 
family. byte[ ] qualifier) 时 读 取 的 指定 列 
setTimeStamp(long timestamp) ΨΣ Ἡ ΠΗ [Β] [δὲ 





setTimeRange(long minStamp.long maxStamp) / 








设置 时 间 戳 /查询 设 定 的 时 间 戳 范围 








getTimeRange() 





setStartRow(byte[ ] startRow) /setStopRow(byte[ ] | 、 "E ἐς 
> ? 设置 起 始 行 /设置 终止 行 
stopRow) 





getStartRow()/getStopRow() 查询 Scan 实例 创建 时 设 定 的 起 始 行 /终止 行 


setMaxVersions() /setMaxVersions(int maxVersions)| 设置 扫描 返回 的 版 本 号 








setFilter( Filter filter) 设置 过 滤器 
numFamilies() 获取 Scan Sc [| ἠ1 Hy HH ANF P Ct 








扫描 操作 将 每 一 行 数据 封装 成 一 个 Result 实例 ,并 将 所 有 的 Result 实例 放 入 一 个 迭代 
器 中 。 通 过 调用 close 方法 可 以 告知 服务 器 扫描 已 经 结束 ,让 其 释放 扫描 资源 。HBase 特 
别提 供 了 以 下 两 个 next 方法 方便 用 户 遍历 ,每 一 个 next 返回 一 个 单独 的 Result 实例 ,表示 
为 下 一 个 可 用 的 行 。 


Result next() throws IOException 
Result[ ] next(int nbRows) throws IOException 


【代码 实例 6] 


public void hbase scan()throws IOException { 
Configuration conf = HBaseConfiguration.create(); 
conf.set ("hbase.zookeeper.quorum", "mainl"); 
HTable table - new HTable (conf, "test"); 
System.out.println ("Scanning table 8 1..."); 
Scan scan] = new Scan();@ 
ResultScanner scannerl = table.getScanner (scan1) ;@) 
for (Result res : scanner1) { 
System.out.println (res) ;@) 
} 
scanner1.close () ;@ 
System.out.println ("Scanning table # 2..."); 
Scan scan2 - new Scan(); 
scan? .addFami 1y (c1) ;@ 
ResultScanner scanner2 = table.getScanner (scan2); 
for(Result res : scanner2)( 
System.out.println (res); 
} 
scanner2.close(); 
System.out.println ("Scanning table # 3..."); 
Scan scan3 = new Scan(); 
scan3.addColumn (c1, q1) .addColumn (c2, ql) . 
setStartRow (rowl).setStopRow (row3) ;© 
ResultScanner scanner3 = table.getScanner (scan3); 
for(Result res : scanner3)( 
System.out.println (res); 
) 
scanner3.close(); 


} 

其 中 ,@ 四 创建 一 个 空 的 Scan 实例 ; @ 取 得 一 个 扫描 器 和 迭代 访问 所 有 的 行 ; 四 打印 行内 
容 ; @ 关 闭 扫描 器 释放 远程 资源 ; @@ 只 添加 一 个 列 禾 , 可 以 禁止 获取 非 coll 的 数据 ; @ 使 用 
builder 模式 将 详细 限制 条 件 添加 到 Scan 实例 ,如 图 7-9 所 示 。 





Logij:WARI Ho appenders could be found for logger (org. apache. hadoop. metrics2. lib. MutableMetricsFactory) 
logij:WARI Please initialize the logij system properly. 

Logij:WARI See http://logging. apache. org/1ogli/1.2/fag. html#noconfig for more info 

Scanning table #1 

lkeyvalues={rowl/coll : q2/1490671281055/Put/vlen=2/seqid=0, rowl/col2:q1/1190671281055/Put/vlen-2/seqi d-0) 
lkeyvalues={row2/coll : ql/1490671281055/Put/vlen=2/seqid=0, row2/co12:q1/1190683282570/Put/vlen-2/ seqi d=0} 
lkeyvalues= {x ow3/col2: ql/1490671281055/Put/vlen=2/seqi d-0] 

lkeyvalues={row4/coll : ql/1490669339954/Put/vlen=2/seqid=0} 

Scanning table #2 

Ikeyvalues={rowl/coll : q2/1490671281055/Put/vlen=2/seqi d=0} 

lkeyvalues= {row2/col1: q1/1490671281055/Put/vlen=2/seqid=0} 

lkeyvalues={row4/coll : ql/1490669339954/Put/vlen=2/seqid=0} 

Scanning table #3... 

lkeyvalues={rowl/col2: q1/1490671281055/Put/vl en-2/ seqi d-0] 

lkeyvalues= (row2/co11:g1/1490671281055/Put/vlen-2/seqid-0, row2/col2:q1/1190683282570/Put/ vl en-2/ seqi d=0} 














图 7-9 Scan 程序 执行 结果 


7.5.1 HTable 方法 


客户 端 API 是 由 HTable 的 实例 提供 的 ,用 户 可 以 用 它 来 操作 HBase 表 , 方 法 见 























表 7-7。 
表 7-7 HTable 实例 的 方法 
方 法 描述 
NU 使 用 HTable 实例 之 后 ,需要 调用 一 次 close, 这 个 方 
法 会 刷 写 所 有 客户 端 缓冲 的 写 操作 
byte[] getTableName() 获取 表 名 称 
Configuration getConfigurationO) 允许 访问 HTable 实例 中 使 用 的 配置 
static boolean isTableEnabled( table) 检查 表 在 Zookeeper 中 是 否 被 标识 为 启用 
bye JE] getStartKeysO 获取 表 中 所 有 region 的 起 始 行 刍 
byte IE] getEndKeysO 获取 表 中 所 有 region 的 终止 行 刍 
Pair < byte[][],byte[][] > getStartEndKeysO Ν᾽ aiaa 





HRegionLocation getRegionLocation( )/Map 
< HRegionInfo, HServer Address > getRegionsInfo() 


void clearRegionCache() 清空 缓存 的 region 位 置信 息 


获取 某 一 行 数据 的 具体 位 置信 息 所 在 的 region 信息 








7.5.2 Bytes 方法 


Bytes 提供 了 将 Java 的 各 种 原生 数据 类 型 互相 转化 等 方法 ,而 且 Bytes 的 所 有 操作 都 
不 需要 创建 一 个 新 的 实例 ,如 表 7-8 所 示 。 
表 7-8 Bytes 方法 
方 ”法 描 æ 
toStringBinary() 把 不 能 打印 的 信息 转换 为 人 工 可 读 的 十 六 进 制 数 


对 两 个 byte[] 进 行 比较 。 前 者 返回 一 个 比较 结果 ， 
后 者 返回 一 个 布尔 值 .表示 两 个 数组 是 否 相 等 








compareTo()/equals() 











add() 把 两 个 字 节 数组 连接 在 一 起 形成 一 个 新 的 数组 
headQ /tail 获取 字 节 数组 头 部 /尾部 数据 
binarySearch() 在 给 定 的 字 节 数组 中 二 分 查找 一 个 目标 值 





将 一 个 long 类 型 数据 转化 成 字 节 数 组 ,并 与 long 类 
型 数据 相 加 后 返回 一 个 字 节 数组 


incrementBytes() 








本 章 小 结 


本 章 主 要 介绍 了 HBase 的 基础 操作 ,由 浅 入 深 地 让 读者 逐步 了 解 掌握 HBase 的 基础 操 
作 实 现 。 

(1) 详细 介绍 了 CRUD 操作 中 各 操作 的 操作 原理 及 提供 的 方法 ,通过 实例 具体 讲述 了 
如 何 实 现 对 HBase 表 的 CRUD 操作 。 

(2) 详细 介绍 了 批 处 理 操作 的 操作 原理 及 提供 的 方法 ,通过 具体 实例 与 CRUD 实例 的 
比较 显示 两 者 的 差异 。 

G) 详细 介绍 了 行 锁 的 操作 原理 ,出现 原因 及 提供 的 方法 ,通过 具体 实例 讲述 了 如 何 实 
现 对 HBase 表 的 建 锁 、 解 锁 及 行 锁 产 生 的 作用 。 

(4) 详细 介绍 了 扫描 的 操作 原理 、 两 种 创建 类 型 及 提供 的 方法 ,通过 具体 实例 讲述 了 如 
何 实现 对 HBase 表 不 同方 式 的 扫描 。 

(5) 简单 介绍 了 HBase 提供 的 HTable 和 Bytes 方法 。 


习 题 
(OD 以 下 方法 中 ,( ) 不 是 CRUD 操作 。 
A. Put B. Get C. Delete D. Lock 
(2) 以 下 ( ) 不 是 KeyValue 对 象 中 包含 的 信息 。 
A. row B. family C. column D. table 


(3) 什么 是 HBase 的 写 缓 冲 区 ,为 什么 使 用 写 缓冲 区 ? 

(4) HBase 如 何 进行 Delete 操作 ? 

(5) 为 什么 在 使 用 行 锁 时 要 十 分 谨慎 ? 如 何 对 一 行 加 行 锁 ? 
(6) Scan 实例 的 创建 有 哪 几 种 ,如 何 创建 它们 ? 


HBase 高 阶 特性 


81 过 iE 器 


HBase 过 滤器 是 一 套 为 完成 一 些 较 高 级 的 需求 所 提供 的 APT 接口 。 从 过 滤器 的 名 称 
可 以 看 出 ,过 滤器 就 是 对 从 数据 库 获取 的 数据 进行 过 滤 , 将 符合 条 件 的 数据 返回 客户 端 , 从 
而 减少 region 服务 器 向 客户 端 发 送 的 数据 量 ,减少 无 用 数据 传输 ,提高 效率 。 


8.1.1 什么 是 过 滤器 


过 滤器 主要 由 过 滤器 本 身 . 比 较 器 和 比较 运算 符 组 成 。 一 般 来 说 ,实现 一 个 过 滤器 
需要 在 过 滤器 中 规定 比较 运算 符 与 比较 器 。 但 是 也 有 例外 ,如 扩展 类 过 滤器 还 拥有 其 他 
参数 。 

过 滤器 的 作用 与 SQL 语句 中 的 where 语句 很 相似 ,在 where 语句 中 一 般 使 用 比较 符 
号 ,而 在 过 滤器 中 不 能 使 用 常规 的 比较 操作 符 ,而 为 其 特别 定义 了 一 套 比较 运算 符 。 

比较 运算 符 全 部 被 封装 在 一 个 名 为 Compare() 的 枚 举 类 中 ,因此 在 使 用 时 一 般 通 过 这 
个 类 去 引用 其 中 的 比较 运算 符 ,比较 运 算 符 如 表 8-1 所 示 。 

表 8-1 过 滤器 中 的 比较 运算 符 























# fF d æ 
LESS 匹配 小 于 设 定 的 值 
LESS_OR_EQUAL 小 于 或 者 等 于 预 设 定 的 值 
EQUAL 等 于 预 设 定 的 值 
NOT_EQUAL 不 等 于 预 设 定 的 值 
GREATER_OR_EQUAL 大 于 或 者 等 于 预 设 定 的 值 
GREATER 大 于 预 设 定 的 值 
NO_OP 排除 一 切 值 





比较 器 是 规定 如 何 进 行 比较 的 一 套 类 文件 ,不 同 的 比较 器 规定 了 在 比较 时 使 用 规则 是 
不 相同 的 ,因此 会 因为 使 用 不 同 的 比较 器 而 使 比较 结果 出 现 较 大 的 差异 。 通 常 使 用 的 比较 
器 如 表 8-2 所 示 。 


X 8-2 常用 的 比较 器 























比 较 器 14 述 
BinaryComparator 小 于 或 者 等 于 预 设 定 的 值 
BinaryPrefixComparator 等 于 预 设 定 的 值 
NullComparator 不 等 于 预 设 定 的 值 
BitComparator 大 于 或 者 等 于 预 设 定 的 值 
RegexStringComparator 大 于 预 设 定 的 值 
SubstringComparator 排除 一 切 值 


过 滤器 能 通过 配置 Get 和 Scan 对 象 进行 使 用 ,通过 函数 设置 相应 的 过 滤器 。 在 发 送 
Get 或 者 Scan 请 求 以 后 ,其 对 象 会 经 过 序列 化 被 传送 到 相应 的 region 服务 器 中 ,这 时 过 滤 
器 对 象 也 会 被 序列 化 后 传人 相应 的 region 服务 器 中 ,从 而 在 region 服务 器 端 起 到 过 滤 数 据 
的 作用 。 
8.1.2 比较 过 滤器 
HBase 提供 了 一 种 专门 用 于 比较 的 过 滤器 ,如 表 8-3 所 示 。 通 过 比较 运算 符 与 比较 类 
来 实现 用 户 的 需求 , 即 比 较 过 滤器 CompareFilter (CompareOp valueCompareOp, WriteByte 
valueCompare) 。 
表 8-3 HBase 提供 的 比较 过 滤器 
行 过 滤器 (RowFilter) 基于 行 键 来 过 滤 数 据 
列 徐 过 滤器 (FamilyFilter) 基于 列 簇 来 过 滤 数 据 
列 名 过 滤器 (QualifierFilter) 基于 列 名 来 过 滤 数 据 

















值 过 滤器 (ValueFilter) 基于 数值 来 过 滤 数 据 
允许 用 户 指定 一 个 参考 列 或 引用 列 , 并 使 用 参考 列 
参 寺 滤 器 (De ν Fi 
考 列 过 滤器 (DependentColumnFilter) 控制 其 他 列 的 过 滤 





【代码 实例 1] 


public void hbase compareFilter()throws IOException { 

Configuration conf = HBaseConfiguration.create(); 

conf.set ("hbase.zookeeper.quorum", "mainl"); 

HTable table = new HTable (conf, "test"); 

System.out.println("RowFilter result:..."); 

Scan scanl = new Scan () ;(D 

Filter filterl = new RowFilter(CompareFilter.CompareOp.LESS OR EQUAL, 
new BinaryComparator (row2)); (2) 

scanl.setFilter (filter1) ;@ 

ResultScanner scannerl = table.getScanner (scan1) ; 

for (Result res : scanner1) { System.out.println (res); yo 
scannerl.close(); 


System.out.println("FamilyFilter result:..."); 


Scan scan2 = new Scan(); 
Filter filter2 = new FamilyFilter (CompareFilter.CompareOp.LESS, 
new BinaryComparator (c2) ) 249) 


scan2.setFilter (filter2) ; 





ResultScanner scanner2 





table.getScanner (scan2) ; 
for (Result res : scanner2)( System.out.println (res); } 
scanner2.close(); 


System.out.println("QualifierFilter result: 


"); 





Scan scan3 - new Scan(); 

Filter filter3 = new QualifierFilter (CompareFilter.CompareOp.LESS OR EQUAL, 
new BinaryComparator (q1)) ;© 

Scan3.setFilter(filter3); 

ResultScanner scanner3 = table.getScanner (scan3) ; 

for (Result res : scanner3)( System.out.println (res); } 

scanner3.close (); 

System.out.println("ValueFilter result: ..."); 

Scan scan4 = new Scan(); 

Filter filter4 = new ValueFilter (CompareFilter.CompareOp.EQUAL, 
new SubstringComparator ("3") ) ;(7 

scan4.setFilter (filter4) ; 

ResultScanner scanner4 = table.getScanner (scan4) ; 

for (Result res : scanner4) { 

for (KeyValue kv : res.raw()) {8 
System.out.println("KV: "+ kv + ",Value: "+ Bytes.toString(kv.getValue())); 


} 
scanner4.close(); 


} 

其 中 ,@ 创 建 Scan 实例 并 指定 ; @ 创 建 一 个 行 过 滤器 ,指定 比较 运算 符 ( 小 于 或 等 于 ) 
及 比较 器 ( 行 键 row2); @ 将 过 滤器 加 入 Scan 实例 ; @ 对 HBase 表 进 行 扫 描 操作 ,并 打印 
出 过 滤 后 的 结果 ; @ 创 建 一 个 列 艇 过 滤器 ,指定 比较 运算 符 ( 小 于 ) 及 比较 器 ( 列 簇 col2); 
@ 创 建 一 个 列 名 过 滤器 ,指定 比较 运算 符 ( 小 于 或 等 于 ) 及 比较 器 ( 列 名 ql1); 创建 一 个 值 
过 滤器 ,指定 比较 运算 符 ( 小 于 ) 及 比较 器 (数值 子 串 含 3); @ 将 获得 的 结果 的 存储 信息 及 数 
值 输出 ,如 图 8-1 和 图 8-2 所 示 。 














:130:0> scan ‘test’ 


, timestamp-1490671281055, value=v2 
column-col2 , timestamp=1490671281055, value=v1 
column=coll:ql, timestamp=1490671281055, value=v3 
column-col2:ql, timestamp-1490683282570, value-v6 


, timestamp=1490671281055, value=v4 
1, timestamp-1490669339954, value-v5 
:ql, timestamp-1490855618097, value-v3 


4 row(s) in 0.0249 seconds 








RowFilter result:..... "m 
keyvalues= {rowl/coll: q2/1490671281055/Put/vlen=2/seqid=0, rowl/col2:91/14190671281055/Put/vlen-2/seqi d-0) 
keyvalues={row2/coll : q1/1490671281055/Put/vlen=2/seqid=0, row2/col2: q1/1490683282570/Put/vlen=2/seqi d=0} 


keyvalues={row!/coll : q2/1490671281055/Put/vlen=2/ seqi d=0} 

keyvalues={row2/coll : q1/1490671281055/Put/vlen=2/seqi d=0} 

keyvalues={row4/coll : q1/1490669339954/Put/vlen=2/seqi d=0} 

QualifierFilter result: 

keyvalues={row!/col2: q1/1490671281055/Put/vl en72/ seqi d=0} 

keyvalues={row2/coll : q1/1490671281055/Put/vlen=2/seqid=0, row2/col2: q1/1490683282570/Put/vlen=2/seqi d=0} 
keyvalues={row3/col2: q1/1490671281055/Put/vlen=2/seqi d=0} 

keyvalues={row4/coll : q1/1490669339954/Put/vlen=2/seqid=0, row4/col2: q1/1490855618097/Put/vlen=2/seqi d=0} 
ValueFilter result: 

KV: row2/coll:q1/1490671281055/Put/vlen-2/seqid-0, Value: v3 

KV: row4/col2: q1/1490855618097/Put/vlen=2/seqid=0, Value: v3 











图 8-2 程序 执行 结果 


8.1.3 专用 过 滤器 


HBase 提供 的 专用 过 滤器 直接 继承 自 FilterBase, 其 中 一 些 过 滤器 只 做 行 筛选 ,因此 只 
适合 于 扫描 操作 。 对 于 Get 操作 ,这些 过 滤器 限制 得 更 苛刻 ,包含 整 行 . 或 者 什么 都 不 包括 ， 
如 表 8-4 所 示 。 

表 8-4 HBase 提供 的 专用 过 滤器 






































过 滤 器 1 述 
单列 值 过 滤器 (SingleColumnValueFilter) 基于 参考 列 来 过 滤 数据 ,只 保留 包含 参考 列 的 行 
1:2] HE Baek μὲ 3 
ο... χ.ο 
前 级 过 滤器 (PrefixFilter) 基于 所 传人 前 级 值 来 过 滤 数 据 
分 页 过 滤器 (PageFilter) 基于 分 页 数 将 结果 数据 按 行 分 页 
行 键 过 滤器 (KeyOnlyFilter) D em KeyValue 实例 的 键 ,不 需要 返回 
首次 行 键 过 滤器 (FirstKeyOnlyFilter) 满足 用 户 访问 一 行 中 的 第 一 列 需求 
包含 结束 的 过 滤器 (InclusiveStopFilter) 将 扫描 的 起 始 行 到 终止 行 的 数据 全 部 包含 到 结果 中 
时 间 截 过 滤器 (TimestampsFilter) 用 户 可 以 对 扫描 结果 的 版 本 细 粒 度 做 控制 
列 计数 过 滤器 (ColumnCountGetFilter) 限制 每 行 取 回 的 最 大 列 数 
列 分 页 过 滤器 (ColumnPaginationFilter) 基于 分 页 数 将 结果 数据 按 列 分 页 
随机 行 过 滤器 (RandomRowFilter) 基于 设 定 的 chance 值 来 决定 结果 中 的 一 行 是 否 被 过 滤 


【代码 实例 2] 


public void hbase SpecailCompareFilter()throws IOException { 
Configuration conf = HBaseConfiguration.create(); 
conf.set ("hbase.zookeeper.quorum", "mainl"); 
HTable table = new HTable (conf, "test"); 





System.out.println("--------------- SingleColumnValueFilter 
fesülti--——————-—--—---— "ys; 


Scan scanl = new Scan(); 
SingleColumnValueExcludeFilter filterl = new SingleColumnValueExcludeFilter (c2, ql, 
CompareFilter.CompareOp.LESS OR EQUAL,new SubstringComparator ("3")); 
filterl.setFilterIfMissing (true) ;() 
scanl.setFilter(filterl); 
ResultScanner scannerl — table.getScanner (scanl); 
for (Result res : scanner1) (2 
for (KeyValue kv : res.raw()) { 
System.out.println("KV: "+ kv + ",Value: "+ System.out.println("-------------- 
- PrefixFilter result:--------------- “iy 
Scan scan2 = new Scan(); 
Filter filter2 = new PrefixFilter (row2) ;@ 
scan2.setFilter (filter2); 
ResultScanner scanner2 = table.getScanner (scan2) ; 
for (Result res : scanner2) { 
for (KeyValue kv : res.raw()) { 
System.out.println("KV: "+ kv + ",Value: "+ Bytes.toString(kv.getValue())); 





} 
scanner2.close(); 
} 
System.out.println("------------- PageFilter result:------------- "); 
Filter filter3 = new PageFilter (3) ;@ 
int totalRows = 
bytel ] lastRow - null; 
int page - 1; 


while(true) (6) 

Scan scan3 = new Scan (); 

scan3.setFilter(filter3); 

if(lastRow != null)( 
byte[] startRow = Bytes.add(lastRow,cl); 
System.out.println("Page "+ page+++ "..."); 
scan3.setStartRow (startRow) ; 

} 

ResultScanner scanner3 = table.getScanner (scan3) ; 

int localRows = 0; 


Result res; 

while((res = scanner3.next ())!- null) 

{© 
System.out .println (localRows+++ ": "+ res); 
totalRowst+ +; 


lastRow = res.getRow(); 

} 

scanner3.close (); 

if(localRows == 0) break; 
H 
System.out.println("total rows: "+ totalRows + ";total pages: "+ (page - 1)); 
System.out.println("--------- InclusiveStopFilter result:--------- "yz 
Scan scan4 = new Scan () 7 
Filter filter4 = new InclusiveStopFilter (row3) ; 

scan4.setStartRow (row2); 











实时 计算 与 应 用 





scan4.setFilter (filter4);(7) 
ResultScanner scanner4 — table.getScanner (scan4); 
for (Result res : scanner4) { 

System.out.println (res); 


) 


scanner4.close(); 


) 

其 中 ,创建 一 个 单列 值 过 滤器 ,过 滤 列 簇 col2 列 名 为 ql 的 数据 ; 
扫描 操作 ,并 打印 出 过 滤 后 的 结 创建 一 个 前 级 过 滤器 ,过 滤 前 级 为 row2 的 数据 ; 
@ 创 建 一 个 分 页 过 滤器 ,将 数据 过 滤 为 每 3 条 处 于 同 1 页 ; @ 和 迭代 重 置 扫描 起 始 行 来 扫 撒 
全 表 数 据 ; @ 将 每 次 扫描 的 1 页 数据 输出 ; 创建 包含 结束 的 过 滤器 ,从 row2 扫描 到 
row3 ,如 图 8-3 和 图 8-4 所 示 。 





DZ} HBase 表 进 行 











hs 


hbase(main):131:@> scan ‘test* 
COLUMN+CELL 
column-coll , timestamp-1490671281055, 
column-col2:ql, timestamp-1490671281055, 
column-coll:ql, timestamp-1490671281055, 
column-col2:ql, timestamp-1490683282570, 
column-col2:ql, timestamp-1490671281055, 
column-coll:ql, timestamp-1490669339954, 
column-col2:ql, timestamp-1490855618097, value-v3 
4 row(s) in 0.0330 seconds 





图 8-3 ”原始 存储 数据 





logij:WARN Ho appenders could be found for logger (org. apache. hadoop. metrics2. lib. MutableMetricsFactory) 
logij:WARN Please initialize the logij system properly 

logij:WARN See http://logging apache. org/logii/1.2/fag html#noconfig for more info 

---------------: SingleColumnValueFilter result:--- 
KV: rowl/coli:q2/1490671281055/Put/vlen-2/seqid-0, Value: v2 
KV: row2/coll:q1/1490671281055/Put/vlen-2/seqid-0, Value: v3 
KV: row4/col1: ql/1490669339954/Put/vle , Value: v5 
-PrefixFilter result: 
row2/ coll: q1/1490671281055/Put/vlen-2/seqid-0, Value: v3 

row2/col2: ql/1490683282570/Put/vlen=2/seqid=0, Value: v6 

--------------- PageFilter result:--------------- 

Ὁ: keyvelues={rowl/col! : g2/1490671281055/Put/vlen=2/seqid=0, rowl/col2: q1/1490671281055/Put/vlen=2/ seqi d=0} 
1: keyvalues-(row2/coll:q1/1190671281055/Put/vlen-2/seqid-0, row2/col2: ql/1490683282570/Put/vlen=2/seqid=0} 
2: keyvalues={row3/col2: q1/14190671281055/Put/vl en-2/ seqi d-0] 

Page 1 

0: keyvalues={row4/coll : gi /1190669339954/Put/vlen=2/seqid=0, row4/col2: q1/1490855618097/Put/vLen=2/ seqi d-0] 


Page 2 











f seqi d 









total rows: 4: total pages: 2 
- -InclusiveStopFilter result:- 
keyvelues={row2/col1 : q1/1490671281055/Put/vle , row2/col2: ql/1490683282570/Put/vlen=2/seqi d=0} 


keyvalues={row3/col2: ql /1490671281055/Put/vlen=2/seqi d=0} 









2/seqi 











图 8-4 程序 执行 结果 


8.1.4 附加 过 滤器 


HBase 提供 的 过 滤器 已 经 十 分 强大 了 ,但 有 时 仍 无 法 满足 要 求 。 附 加 过 滤器 正好 提供 
了 相应 的 补充 特殊 功能 ,额外 的 控制 不 依赖 于 过 滤器 自身 , 却 可 以 应 用 在 其 他 过 滤器 中 , 见 
表 8-5。 
表 8-5 ”附加 过 滤器 
过 滤 器 do 3 


允许 用 户 在 遇 到 一 个 需要 过 滤 的 KeyValue 实例 时 ,可 以 过 滤 整 
行 数据 


全 匹配 过 滤器 (WhileMatchFilter) 遇 到 一 条 数据 被 过 滤 时 , 它 会 放弃 后 面 的 扫描 





跳 转 过 滤器 (SkipFilter) 








【代码 实例 3] 


public void hbase_AdditionCompareFilter ()throws IOException { 
Configuration conf = HBaseConfiguration.create(); 
conf.set ("hbase.zookeeper.quorum", "mainl"); 
HTable table - new HTable (conf, "test"); 
System.out.println("------------ SkipFilter result:------------ hie 
Scan scanl = new Scan(); 
Filter filterl = new ValueFilter(CompareFilter.CompareOp.NOT EQUAL, 
new BinaryComparator (v1) ) FO) 
scanl.setFilter (filter1); 
ResultScanner scannerl = table.getScanner (scanl); 
for (Result res : scannerl)( 
for (KeyValue kv : res.raw())( 
System.out.println("KV: "+ kv + ",Value: "+ Bytes.toString(kv.getValue())); 


) 
scannerl.close(); 
System.out.println("..... Skip......' n) 
Filter filter2 = new SkipFilter (filterl) ΠΩ] 
scanl.setFilter (filter2) ; 
ResultScanner scanner2 = table.getScanner (scanl); 
for (Result res : scanner2) { 
for (KeyValue kv : res.raw()) { 
System.out.println("KV: "+ kv ",Value: "+ 
Bytes.toString (kv.getValue ())); 
} 
} 
scanner2.close(); 
System.out.println("---------- WhileMatchFilter result:---------- "); 
Scan scan2 = new Scan(); 
Filter filter3 = new RowFilter (CompareFilter.CompareOp.NOT EQUAL, 
new BinaryComparator (row2)); 3) 
scan2.setFilter (filter3); 
ResultScanner scanner3 — table.getScanner (scan2); 


for (Result res : scanner3)( 
for (KeyValue kv : res.raw()) { 
System.out.println("KV: "+ kv ",Value: "+ Bytes.toString(kv.getValue())); 


} 
scanner3.close(); 
System.out.println(".....l WhileMatch......' "s 
Filter filter4 = new WhileMatchFilter (filter3) ;@ 
scan2.setFilter (filter4) ; 
ResultScanner scanner4 = table.getScanner (scan2) ; 
for (Result res : scanner4) { 

for (KeyValue kv : res.raw()) { 

System.out.println("KV: "+ kv + ",Value: "+ Bytes.toString(kv.getValue())); 


icd .close(); 

} 

其 中 ,@ 创 建 s 器 , 找 出 数值 是 v1 的 数据 ,并 输出 ,如 图 8-5 所 示 ; 
跳 转 过 滤器 到 扫描 中 ,过 含 空 行 的 数据 ; 外 创建 一 个 行 过 滤器 ,过 滤 前 组 为 row2 的 数 
据 ; @ 创 建 一 个 全 匹 ien 器 ,过 滤 出 前 组 为 row2 的 数据 所 在 行 之 前 的 所 有 行 数据 ,如 
图 8-6 所 示 。 














hbase(main):139:6> scan “test 

ROW COLUMN+CELL 

rowl ς :q2, timestamp-1490671281055, 

rowl , timestamp-1490671281055, ν 

row2 ς , timestamp-1490671281055, 

row2 ς timestamp-1490683282570, 

row2 ο timestamp-1490865539026, 

row3 ς C , timestamp-1490671281055, 

row4 column-coll: ql. timestamp-1490669339954, value-v5 
4 row(s) in 0.0309 seconds 





图 8-5 原始 存储 数据 





到 目前 为 止 ,HBase 提供 了 各 式 各 样 的 过 滤器 给 用 户 使 用 。 实 际 应 用 中 ,用 户 通常 需 
要 多 个 过 滤器 来 共同 限制 返回 结果 。 为 了 满足 这 个 需求 ,HBase 特意 提供 了 FilterList 来 
实现 功能 。 
用 户 可 以 使 用 以 下 构造 器 创建 相应 实例 ,如 表 8-6 所 示 。 
表 8-6 FilterList 过 滤器 























方 di 述 
FilterList( List < Filter > rowFilters) rowFilters: 列表 形式 
FilterList(Operator operator) operator: 组 合 结果 
FilterList(Operator operator, List « Filter > rowFilters) 意义 同上 








其 中 ,operator 有 MUST_PASS_ALL( 默 认 值 ) 和 MUST. PASS ONE 两 种 赋值 。 
者 为 当 所 有 过 滤器 都 包含 某 值 时 , 才 会 不 忽略 该 值 ; 后 者 为 当 一 个 过 滤器 允许 某 值 时 ,该 值 
就 会 被 包含 在 结果 中 。 





“C:\Program Files\Java\jdki.7.0_80\bin\java” . 

log4j:WARN No appenders could be found for logger (org. apache. hadoop. metrics2. lib. MutableMetricsFactory). 
logij:WARN Please initialize the log4j system properly. 

log4j:WARN See http: //logging. apache. org/1og1j/1.2/fag. html#noconfig for more info. 

κως SkipFilter nl 

KV: row1/col1 : q2/1490671281055/Put/vlen=2/seqid=0, Value: v2 

KV: row2/col1: q1/1490671281055/Put/vlen=2/seqid=0, Value: v3 

XV: row2/col2: ql /1490683282570/Put/vlen=2/seqid=0, Value: vê 
XV 
KV 





: row3/col2: q1/1490671281055/Put/vlen=2/seqid=0, Value: v4 
: row4/coll : ql/1490669339954/Put/vlen=2/seqid=0, Value: v5 
‘ql /1490671281055/Put/vlen=2/seqid=0, Value: v4 
‘ql /1490669339954/Put/vlen=2/seqid=0, Value: v5 








rowl/coll : q2/1490671281055/Put/vlen=2/seqid=0, Value: v2 
rowl/col2: q1/1490671281055/Put/vlen=2/seqid=0, Value: vl 
row3/col2: qi/1490671281055/Put/vlen=2/seqid-0, Value: v4 
row4/col1 : q1/1490669339954/Put/vlen=2/seqid-0, Value: v5 
AU WhileMatch. 

rowl/coll:q2/14190671281055/Put/vlen-2/segid-0, Value: v2 
row1/col2: q1/1490671281055/Put/vlen=2/seqid=0, Value: vl 

















图 8-6 程序 执行 结果 
在 成 功 创建 FilterList 实例 后 ,HBase 还 提供 了 下 面 的 方法 来 添加 过 滤器 。 
Void addFilter (Filter filter) 


用 户 可 以 随意 地 向 已 经 存在 的 FilterList 实例 添加 Filter 实例 ,并 且 通 过 控制 List 中 
过 滤器 的 顺序 来 进一步 精确 控制 过 滤器 的 执行 顺序 。 
【代码 实例 4] 


public void hbase FilterList ()throws IOException { 

Configuration conf = HBaseConfiguration.create(); 

conf.set ("hbase.zookeeper.quorum", "mainl"); 

HTable table - new HTable (conf, "test"); 

List<Filter> filters = new ArrayList« Filter» ();(D 

Filter filterl = new RowFilter(CompareFilter.CompareOp.GREATER OR EQUAL, 
new BinaryComparator (row2)); 

filters .add(filterl) ;@ 

Filter filter2 = new RowFilter(CompareFilter.CompareOp.LESS OR EQUAL, 
new BinaryComparator (row3)); 

filters .add (filter2) ;@ 

Filter filter3 = new QualifierFilter (CompareFilter.CompareOp.EQUAL, 
new RegexStringComparator ("ql") ); 

filters .add(filter3) ;® 

FilterList filterListl = new FilterList (filters) ROJ 

System.out.println("------------ FilterLisEtl result:-——-——-——-—-—-- “hE 

Scan scan = new Scan (); 

scan.setFilter (filterList1); 


ResultScanner scannerl = table.getScanner (scan) ; 


for (Result res : scannerl) {© 
for (KeyValue kv : res.raw()){ 
System.out.println("KV: "+ kv + ",Value: "+ Bytes.toString(kv.getValue())); 
} 
} 
scannerl.close(); 
System.out.println("------------ FilterList2 result:------------ "s 
FilterList filterList2 = new FilterList (FilterList.Operator.MUST PASS ONE, filters) πο 
scan.setFilter (filterList2) ; 
ResultScanner scanner2 = table.getScanner (scan) ; 
for (Result res : scanner2) {® 
for (KeyValue kv : res.raw()) { 
System.out.println("KV: "+ kv + ",Value: "+ Bytes.toString(kv.getValue())); 
} 
} 
scanner2.close () ; 


) 

其 中 ,@ 创 建 列 表 存 储 Filter 实例 ; 四 创建 一 个 行 过 滤器 ,过 滤 的 行 键 大 于 row2 的 数 
据 ,并 将 实例 添加 到 列表 中 ; 四 创建 一 个 行 过 滤器 ,过 滤 的 行 键 小 于 row3 的 数据 ,并 将 实例 
添加 到 列表 中 ; 图 创建 一 个 列 名 过 滤器 ,过 滤 的 列 名 为 ql 的 数据 ,并 将 实例 添加 到 列表 中 ; 
回 创建 一 个 过 滤器 列表 ,将 上 述 过 滤器 操作 添加 : @ 对 HBase 表 进 行 过 滤器 列表 中 的 所 有 
操作 ,将 满足 所 有 列表 的 数据 输出 ; 创建 一 个 过 滤器 列表 .将 上 述 过 滤器 操作 添加 ,并 指 
定 操作 符 为 MUST_PASS_ONE; 图 对 HBase 表 进 行 过 滤器 列表 中 的 所 有 操作 ,将 满足 任 
一 列表 的 数据 输出 ,如 图 8-7 和 图 8-8 所 示 。 





Logij:WARI Ho appenders could be found for logger (org apache. hadoop. metrics2, lib. MutableMetricsFactory) 
logij:WARI Please initialize the logij system properly 

Log4j :WARI See http://logging. apache. org/log4j/1. 2/ξαα. htmlfnoconfig for more info 

|--------------- Filterlisti result:--------------- 

KV: row2/coll:q1/14190671281055/Put/vlen-2/seqid-0, Value: v3 

KV: row2/co12: q1/1490683282570/Put/vlen-2/seqid-0, Value: v6 

KV: row3/col2:q1/1490671281055/Put/vlen-2/seqid-0, Value: v4 


rowl/coll:q2/1490671281055/Put/vlen-2/segid-0, Value: v2 
row1/col2:q1/1490671281055/Put/vlen-2/seqid-0, Value: vl 
row2/col1 : q1/1490671281055/Put/vlen=2/seqid=0, Value: v3 
row2/col2: ql/1490683282570/Put/vlen=2/seqid=0, Value: v6 
row2/col2: q2/1490865539026/Put/vlen=2/seqid=0, Value: vl 
row3/col12: ql/1490671281055/Put/vlen=2/seqid=0, Value: v4 
row1/ coll: g1/1490669339954/Put/vlen-2/segid-0, Value: v5 








44444483 





图 8-7 程序 执行 结果 


82 it HW 器 


许多 收集 统计 信息 的 应 用 都 有 点 击 流 或 在 线 广告 意见 ,这 些 应 用 需要 被 收集 到 日 志 
件 中 用 作 后 续 的 分 析 。 用 户 可 以 使 用 计数 器 做 实时 统计 ,从 而 放弃 延 时 较 高 的 批量 处 理 


hbase(main):139:6> scan 'test' 


COLUMN+CELL 


， timestamp=1490671281055, value=v2 
, timestamp-1490671281055, value-vl 
, timestamp=1490671281055, value=v3 
timestamp=1490683282570, value=v6 
timestamp-1490865539026, value-vl 
, timestamp-1490671281055, value=v4 
column-coll:ql, timestamp-1490669339954, value-v5 

4 row(s) in 0.0300 seconds 





图 8-8 原始 存储 数据 
操作 。 
8.2.1 什么 是 计数 器 


fr HBase 中 如 果 使 用 某 一 行 的 值 借 用 Put 操作 来 实现 计数 器 功能 ,为 了 保证 原子 性 操 
作 , 必 然 会 导致 一 个 客户 端 对 计数 器 所 在 行 的 资源 占有 。 在 大 量 进行 计数 器 操作 时 , 则 
会 占有 大 量 资 源 ,并 且 一 旦 某 一 客户 端 崩 溃 ,将 会 使 其 他 客户 端 进入 长 时 间 等 待 。 于 
是 ,HBase 定 义 了 一 个 计数 器 来 满足 用 户 需 求 , 既 避免 了 资源 占有 问题 ,也 保证 其 原 
Ft. 

在 HBase 中 ,HBase 将 某 一 列 作为 计数 器 来 使 用 ,因此 创建 计数 器 与 创建 行 是 相同 的 。 
创建 计数 器 时 不 需要 特定 的 创建 流程 ,因为 HBase 的 列 具有 动态 添加 的 特性 ,使 计数 器 与 
列 具 有 相同 的 特性 动态 添加 , 即 在 第 一 次 使 用 时 计数 器 (实质 为 列 ) 隐 藏 地 进行 了 创建 ， 
且 初始 值 为 0。 

计数 器 增加 值 是 增加 一 个 long 值 , 其 增加 的 值 也 有 负 有 正 , 不 同 的 数据 进行 增加 时 有 
不 同 的 效果 ,如 表 8-7 所 示 








表 8-7 计数 量 增加 值 











增加 什 ΓΝ 

大 于 0 | 增加 计数 器 的 值 

等 于 0 | 不 更 改 计数 器 的 值 ,并 得 到 当前 值 
小 于 0 | 减少 计数 器 的 值 


需要 注意 的 是 ,计数 器 数值 增加 是 一 个 long 类 型 的 整数 变化 ,而 不 是 一 个 字符 串 , 有 时 
增 减 一 个 字符 串 会 发 现 结果 值 会 突然 增 大 很 多 
HBase shell 环境 也 提供 了 计数 器 的 操作 ,其 命令 结构 为 





incr <tablename> , <rowkey> , «column» , longn 
8.2.2 单 计 数 器 及 多 计数 器 
单 计 数 器 即 增加 操作 只 能 操作 一 个 计数 器 ,用 户 需 要 自己 设 定 列 ,采用 以 下 增加 方法 。 


incrementColumnValue (byte| | row,byte| | family, byte! | qualifier,1long amount) 


incrementColumnValue (byte| | row, byte| | family, byte| | qualifier, long amount, boolean 
writeToWAL) 


实时 计算 与 应 用 





其 中 ,row family qualifier 为 列 坐 标 ,amount 为 增加 值 。 
如 果 HTable 直接 对 计数 器 进行 增加 ,可 能 只 能 增加 一 行 ; 如 果 对 一 行 中 的 多 个 计数 
器 进行 增加 , 则 需要 多 次 发 送 RPC 请 求 。HBase 针对 此 种 需求 ,特地 提供 了 对 一 行 中 的 多 
个 计数 器 进行 增加 的 API。 
Result increment (Increment increment) 
其 中 ,increment 实例 可 以 由 以 下 方法 构造 ,如 表 8-8 所 示 。 
表 8-8 ”创建 increment 实例 的 方法 











方 法 描 述 
Increment() 创建 一 个 空 的 计数 器 实例 
JIncrement(byte[] row) row: 行 键 
Increment(byte[ ] row. RowLock rowlock) row: 行 键 ,rowlock: 锁 





此 外 ,还 提供 了 其 他 的 increment 实例 方法 ,如 表 8-9 所 示 。 
表 8-9 fi) increment 实例 的 其 他 方法 
































A 8 ii 3x 
addColumn(byte[ ] family.byte[ ] qualifier.long amount) | 向 实例 中 增加 列 
setTimeRange(long minStamp.long maxStamp) 设 定 计数 器 的 时 间 范 围 
getRow() 返回 实例 的 行 键 值 
getRowLock() 返回 实例 中 的 RowLock 实例 
getTimeRange() 返回 实例 的 时 间 范 围 
numFamilies() 实例 中 FamilyMap 大 小 
numColumns() 返回 实例 中 将 被 处 理 的 列 数 
hasFamilies() 检查 是 否 有 列 或 列 簇 存在 于 实例 中 
使 用 户 可 以 访问 addColumn 方法 添加 的 列 。 
familySet O /getFamilyMapO FamilyMap 中 键 为 列 簇 名 ,对 应 值 为 列 簇 下 列 
的 列表 


【代码 实例 5] 


public void hbase Count ()throws IOException { 

Configuration conf = HBaseConfiguration.create(); 

conf.set ("hbase.zookeeper.quorum", "mainl"); 

HTable table = new HTable (conf, "counter"); 

long cnt1 = table.incrementColumnValue (Bytes.toBytes ("2017"), 
Bytes.toBytes ("month") , Bytes .toBytes ("1"), 1) ΗΠ 

long cnt2 - table.incrementColumnValue (Bytes.toBytes ("2017"), 
Bytes.toBytes ("month") , Bytes .toBytes ("1") ,1); 

long current = table.incrementColumnValue (Bytes .toBytes ("2017"), 
Bytes.toBytes ("month") , Bytes .toBytes ("1"),0) RO] 

long cnt3 = table.incrementColumnValue (Bytes.toBytes ("2017"), 
Bytes.toBytes ("month") , Bytes.toBytes ("1") ,- 1);@ 

System.out.println ("cntl: "+ cntl + " cnt2: "+ cnt2 + " current: " + current + 
" cnt3: "+ cnt3) ;(D 


Increment incl = new Increment (Bytes.toBytes ("2017")) ;© 
incl.addColumn (Bytes .toBytes ("month") ,Bytes.toBytes ("1") ,1); 
incl .addColumn (Bytes .toBytes ("month") , Bytes.toBytes ("2") ,1)7 
incl.addColumn (Bytes .toBytes ("month") ,Bytes.toBytes ("1") ,5) 7 
incl.addColumn (Bytes .toBytes ("month") , Bytes.toBytes ("2") , 3) ;© 
Result resl = table.increment (incl); 
for (KeyValue kv : resl.raw()){ 
System.out.println("KV: "+ kv + ",Value: "+ Bytes.toLong(kv.getValue())); 





} 
Increment inc2 = new Increment (Bytes.toBytes ("2017") ); 
inc2.addColumn (Bytes .toBytes ("month") ,Bytes.toBytes ("1") , 0); 
inc2.addColumn (Bytes .toBytes ("month") , Bytes .toBytes (": 
inc2.addColumn (Bytes .toBytes ("month") , Bytes.toBytes 
inc2.addColumn (Bytes .toBytes ("month") , Bytes. toBytes (" 
Result res2 = table.increment (inc2) ; 
for (KeyValue kv : res2.raw()) { 

System.out.println("KV: "+ kv + ",Value: "+ Bytes.toLong(kv.getValue())); 






} 


其 中 ,QO 创建 一 个 计数 器 , 若 存 在 则 自 增 1; 四 创建 一 个 计数 器 , 若 存在 则 读 取 该 计数 器 
当前 值 , 不 做 自 增 操作 ; 四 创建 一 个 计数 器 , 若 存在 则 自 减 1; @ 输 出 上 述 操作 结果 ; OA 
建 一 个 多 计数 器 实例 ; @ 向 多 计数 器 实例 中 添加 实际 的 计数 器 操作 ,对 不 同 计数 器 使 用 不 
同 增加 值 ,并 输出 结果 ; 向 多 计数 器 实例 中 添加 实际 的 计数 器 操作 ,计数 器 使 用 正 、 负 及 
零 增 加 值 ,并 输出 结果 ,如 图 8-9 所 示 。 





log4j :WARI Ho appenders could be found for logger (org apache. hadoop. metrics2. lib. MutableMetricsFactory) 
logij:WARN Please initialize the log4j system properly 

logij:WARE See http://logging. apache. org/1og!i/1.2/fag htnlfnoconfig for more info 

cntl: 12 ent2: 13 current: 13 cnt3: 12 








KV: 2017/month: 1/1490924220061/Put/vlen=8/seqid=0, Value: 13 
KV: 2017/month:1/1490924220061/Put/vlen-8/seqid-0, Value: 17 
KV: 2017/month:2/1490924220061/Put/vlen=8/seqid=0, Value: 0 
KV: 2017/month: 2/1490924220061/Put/vlen=8/seqid=0, Value: 2 
——--------Inerement2 Fd 

KV: 2017/month:1/1490924220071/Put/vlen-8/segid-0, Value: 17 
KV: 2017/month:1/1490924220071/Put/vlen-8/segid-0, Value: 22 
Kv 
KV: 





2017/month:2/1490924220071/Put/vlen=8/seqid=0, Value: 3 
: 2017/month:2/1490924220071/Put/vlen=8/seqid=0, Value: -2 











图 8-9 程序 执行 结果 


83 协 处 理 器 


HBase 中 还 有 一 些 特性 甚至 可 以 让 用 户 把 一 部 分 计算 也 移动 到 数据 存放 端 , 即 协 处 理 器 。 


大 数据 
CD  ziiHHSEH nnn 


8.3.1 什么 是 协 处 理 器 


HBase 作为 列 存 储 的 数据 库 , 很 多 关于 统计 的 函数 没有 直接 快速 地 计算 ,因此 HBase 
提供 了 协 处 理 器 的 功能 , 协 处 理 提供 了 用 户 在 region 服务 器 端 插入 自己 的 代码 ,从 而 实现 
特定 功能 的 权利 。 通 过 用 户 自 写 的 协 处 理 器 ,可 以 完成 创建 二 级 索引 , 行 数量 的 统计 等 功能 。 

协 处 理 器 主要 分 为 两 类 : 观察 者 模式 (obverser) 和 终端 模式 (endpoint) ,这 两 种 协 处 理 
器 都 源 于 Coprocessor 类 ,从 而 实现 协 处 理 器 框架 。 

CD 观察 者 模式 : 该 模式 提供 了 一 个 触发 器 ,用 户 通 过 集成 相应 的 类 (BaseRegion- 
Obverser 等 ) , 重 写 其 中 想 要 实现 的 方法 ,然后 将 协 处 理 器 加 载 到 表 中 ,这 时 表 就 会 通过 协 
处 理 器 “监听 ”用 户 预 先 设置 的 动作 。 一 旦 该 动作 被 执行 ,用 户 所 写 的 钩子 函数 就 被 触发 , 然 
后 实现 相应 的 功能 。 因 为 HBase 无 法 直接 创建 二 级 索引 ,但 是 可 以 通过 在 观察 者 模式 中 ， 
在 每 次 插入 一 条 数据 项 时 通过 自 定义 功能 实现 二 级 索引 。 

(2) 终端 模式 : 该 模式 类 似 于 关系 型 数据 库 中 的 存储 过 程 ,用 户 可 以 通过 RPC 请 求 触 
发 终端 的 代码 ,从 而 实现 某 些 功 能 。 例 如 ,可 以 在 终端 实现 某 些 表 行 的 统计 。 

此 外 , 协 处 理 器 也 存在 执行 顺序 上 的 权限 问题 ,可 在 Coprocessor. Priority 函数 中 定义 
协 处 理 器 的 级 别 为 SYSTEM USER. 

(OD SYSTEM 为 系统 级 别 的 协 处 理 器 权限 ,要 大 于 用 户 级 别 的 协 处理 器 ,因此 在 执行 
协 处 理 器 的 过 程 中 ,系统 级 协 处 理 器 优先 执行 ,而 用 户 级 的 协 处 理 器 滞后 执行 。 

(2) 相同 级 别 的 协 处 理 器 都 带 有 一 个 序号 ,以 辨别 同 级 别 协 处 理 器 的 执行 顺序 。 


8.3.2 协 处 理 器 API 应 用 


1. 协 处 理 器 的 加 载 方式 

协 处 理 器 的 加 载 有 两 种 方式 : 从 配置 中 加 载 或 从 表 描 述 中 加 载 。 

1) 从 配置 中 加 载 

用 户 可 以 通过 在 hbase-site. xml 文件 中 配置 协 处 理 器 类 的 位 置 来 添加 协 处 理 器 类 。 在 
配置 文件 中 配置 项 的 顺序 很 重要 ,因为 在 配置 项 中 的 顺序 是 协 处 理 器 加 载 的 顺序 ,也 是 协 处 
理 器 执行 的 顺序 ,通过 配置 加 载 的 协 处 理 器 在 每 一 张 表 都 会 被 应 用 上 。 在 该 配置 文件 中 有 
几 个 配置 选项 ,可 以 规定 协 处 理 器 监听 的 位 置 , 如 表 8-10 所 示 o 

















表 8-10 配置 选项 
方 法 描 述 
i " — m master 处 理 ,在 一 些 master 级 别 的 操作 ,如 创建 表 、 删 除 表 时 
base. coprocessor. master. classes 会 触发 该 处 理 器 
: region 处 理 , 在 region 级 别 的 操作 ,例如 插入 、 删除、 获取 数据 

hbase. coprocessor. region. classes 

的 操作 时 可 以 触发 这 些 函 数 
hbase. coprocessor. wal. classes wal 日 志文 件 处 理 , 在 wal 操作 过 程 中 的 协 处 理 器 触发 函数 


2) 从 表 描 述 中 加 载 

该 功能 是 在 表 的 描述 中 为 其 添加 一 个 协 处 理 器 的 描述 ,从 而 将 协 处 理 器 的 代码 传递 到 
region 端 ,但 是 该 种 方法 只 能 为 特定 的 某 一 张 表 添加 用 户 定义 的 协 处 理 器 。 

用 户 可 以 通过 HTableDescriptor. setValue() 方 法 添加 协 处 理 器 。 其 中 ,key 值 必须 以 


COPROCESSOR 开头 ,通过 5 十 数字 规定 该 协 处 理 器 的 序号 ; value 值 由 三 部 分 组 成 ,每 一 
部 分 又 进行 分 割 。 第 一 部 分 为 类 的 路 径 , 第 二 部 分 为 协 处 理 器 所 在 的 类 ,第 三 部 分 为 协 处理 


器 的 等 级 。 
所 有 的 协 处 理 器 都 继承 自 同 一 个 类 Coprecessor, 因 此 所 有 的 协 处 理 器 都 具有 相同 的 
属性 。 


start (CoprocessorEnviroment env) 
stop (CoprocessorEnviroment env) 


在 协 处 理 器 的 生成 周期 中 ,start 函数 启动 协 处 理 器 ,stop 函数 则 停止 协 处 理 器 功能 。 

2. 协 处 理 器 的 状态 

在 协 处 理 器 中 定义 了 一 个 协 处 理 器 的 所 有 状态 ,并 且 所 有 的 状态 都 封装 在 一 个 枚 举 类 
Coprocessor. State 中 ,如 表 8-11 所 示 。 


表 8-11 状态 封装 类 




















方 ” 法 d 3 
UNINSTALLED 协 处 理 器 的 最 初 状 态 ,没有 环境 ,也 没有 被 初始 化 
INSTALLED 实例 装载 了 它 的 环境 参数 
STARTING 协 处 理 器 开始 工作 ,也 就 是 start() 函 数 将 要 被 调用 
ACTIVE start() 函 数 已 经 被 调用 
STOPPING stopO 函数 将 要 被 调用 之 前 的 状态 
STOPPED stop O 函数 被 调用 





观察 者 模式 的 实现 是 协 处 理 器 的 重要 一 环 。 该 模式 主要 分 为 三 种 类 型 : region 级 别 的 
观察 者 模式 、wal 级 别 的 观察 者 模式 以 及 master 级 别 的 观察 者 模式 ,如 表 8-12 所 示 。 
表 8-12 三 个 级 别 的 观察 者 模式 
提供 一 些 针 对 region 级 别 操作 (put、get、delete 等 ) 的 函数 ,用 户 可 以 用 这 种 处 理 
器 处 理 数据 修改 事件 
wal 级 别 提供 一 些 针对 wal 级 别 操作 的 函数 
master 级 别 提供 一 些 针 对 master 级 别 操 作 (createtable、disabletable .droptable 等 ) 的 函数 


region 级 别 











实现 region 级 别 的 观察 者 时 需要 继承 一 个 基本 类 BaseRegiobObverser, 该 类 中 已 经 包 
含 所 有 的 region 级 别 的 函数 ,用 户 只 需要 进行 重 写 。 

所 有 提供 的 函数 都 是 以 preDo()VpostDo() 成 对 存在 .例如 prePut O /postPut O PRSE 
是 成 对 存在 。preDo() 系 列 的 函数 表明 在 执行 Do 所 执行 的 动作 之 前 执行 函数 。postDo() 
系列 函数 表明 在 执行 了 Do 之 后 执行 函数 。 在 实现 时 .允许 只 实现 preDoO R postDoO 。 


大 数据 
QD asen ii 


【代码 实例 6] 


public class RegionObserverExample extends BaseRegionObserver{ 
public static final byte[ | FIXED ROW = Bytes.toBytes("@@ GETTIMEQG "); 
public void preGet (final ObserverContext« RegionCoprocessorEnvironment» e, 
final Get get,final List<KeyValue> res) throws IOException{ 
if (Bytes equals (get.getRow(),FIXED ROW))((D 
KeyValue kv = new KeyValue (get.getRow(),FIXED ROW,FIXED ROW, 
Bytes.toBytes (System.currentTimeMillis())); 
res .add (kv) ;@ 
e.bypass () ;@) 


} 


其 中 ,@ 检 查 请 求 的 行 键 是 否 匹 配 ; @ 创 建 一 个 特殊 的 KeyValue 实例 ,只 包含 服务 器 
的 当前 时 间 ; @ 一 个 特殊 的 KeyValue 被 添加 ,之 后 的 操作 都 会 被 跳 过 。 

完成 该 操作 需要 把 编译 过 的 JAR 包 添 加 到 hbase-env. sh 的 HBASE_CLASSPATH 
中 ,部 署 完 成 之 后 需要 重启 HBase 使 配置 生效 。 

master 级 别 的 观察 者 模式 与 region 级 别 的 模式 相同 ,但 其 “监听 ”的 对 象 变 成 了 master 
级 别 的 操作 ,也 就 是 相当 于 SQL 语句 中 的 DDL 语句 。 主 要 包括 对 表 的 一 些 操作 对 象 和 
region 级 别 的 操作 函数 。 

HBase 中 也 提供 了 一 个 BaseMasterObverser 对 象 ,该 对 象 中 也 封装 了 所 有 的 DDL 操 
作 的 函数 。 用 户 只 需要 继承 该 对 象 .并 重 写 相 应 的 方法 ,就 可 实现 相应 的 功能 。 其 实现 流程 
与 region 级 别 的 流程 一 样 。 


本 章 小 结 


本 章 详细 介绍 了 HBase 为 完成 一 些 较 高 级 的 需求 所 提供 的 高 阶 特性 ,主要 有 以 下 几 个 
方面 。 

CD. 详细 介绍 了 过 滤器 的 组 成 结构 及 其 作用 ,接着 通过 实例 详细 说 明了 比较 过 滤器 、 专 
用 过 滤器 等 多 种 过 滤 的 具体 用 法 。 

(2) 首先 讲解 了 计数 器 的 概念 .作用 及 其 简单 操作 构建 ,接着 通过 实例 详细 介绍 了 单 计 


数 器 与 多 计数 器 的 具体 用 法 。 
(3) 详细 介绍 了 协 处 理 器 的 功能 、 分 类 、 权 限 及 加 载 等 概念 。 接 着 通过 实例 讲解 了 协 处 
理 器 的 具体 实现 过 程 。 


HH 


(OD WFC ) 不 是 HBase 的 比较 运算 符 。 
A. LESS B. LESS_OR_EQUAL 
C. GREATER_OR_LESS D. EQUAL 





(2) 以 下 ( ORE HBase 的 过 滤器 。 
A. 比较 过 滤器 B. 专用 过 滤器 C. 附加 过 滤器 D. 判断 过 滤器 
(3) 计数 器 的 增加 值 的 类 型 是 ( e 


A. long B. int C. char D. short 
(4) 以 下 ( ”) 不 属于 观察 者 模式 的 类 型 。 
A. region B. WAL C. observer D. master 


(5) 怎么 设置 过 滤器 ? 并 给 出 你 的 理由 。 
(6) 什么 是 协 处 理 器 ? 分 为 哪些 类 型 ? 请 详细 说 明 。 
C) 协 处 理 器 的 加 载 方式 有 哪 几 种 ?请 详细 说 明 。 
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9.1 HBase 数据 描述 


在 HBase 中 建 表 涉 及 表 结 构 以 及 列 簇 结 构 的 定义 ,这 些 定义 关系 到 表 和 列 艇 内 的 数据 
如 何 存 储 以 及 何 时 存储 。 


9.1.1 表 

在 HBase 中 数据 最 终 会 存储 在 一 张 表 或 多 张 表 中 ,使 用 表 的 主要 原因 是 控制 表 中 的 所 
有 列 ,以 达到 共享 表 内 的 某 些 特性 的 目的 。 

表 描述 符 的 构造 函数 如 下 。 


HTableDescriptor (String name); 
HTableDescriptor (byte[ ] name) ; 
HTableDescriptor (HTableDescriptor desc); 


用 户 可 以 通过 表 名 或 已 有 的 表 描 述 符 来 创建 表 。 表 名 通常 以 Java String 类 型 或 byte[ ΠΒ 
式 进行 表示 。 表 名 会 作为 存储 系统 中 存储 路 径 的 一 部 分 来 使 用 ,因此 必须 符合 文件 名 规范 。 
与 RDBMS 模型 不 同 ,HBase 列 式 存储 格式 允许 用 户 存储 大 量 的 信息 到 相同 的 表 中 。 
9.1.2 FR 
列 得 是 表 中 非常 重要 的 一 部 分 ,用 户 可 以 通过 以 下 方法 来 指定 在 表 中 将 要 使 用 的 列 复 o 
如 表 9-1 所 示 。 
表 9-1 列 艇 访问 方法 




















方 法 d 述 
void addFamily( HColumnDescriptor family) DELE 
boolean hasFamily(byte[ ] c) RANGE ὁ 是 否 存 在 
HColumnDescriptor[ ] getColumnFamilies() 获取 所 有 已 经 存在 列 簇 
HColumnDescriptor getFamily(byte[ ] c) 获取 列 艇 “的 列 艇 描述 符 
ColumnDescriptor removeFamily(byte[ ] c) 移 除 列 簇 c 


列 簇 定义 了 所 有 列 的 共享 信息 ,并 且 可 以 通过 客户 端 创建 任意 数量 的 列 。 若 想 定位 到 
某 一 具体 列 ,需要 列 簇 名 与 列 名 合并 在 一 起 。 


family (lj E ): qualifier ( 列 名 ) 


注意 : DEB £BEX.:"Z8.XcbP5 κ. ΤΊ, ΤΊ, a ATA 


任意 二 进 制 字符 组 成 。 
HBase 提供 了 以 下 构造 函数 来 创建 列 簇 。 


HColumrlDescriptor (byte[ ] familyName, int maxVersions, String compression, boolean inMemory, 
boolean blockCacheEnabled, int blocksize, int timeToLive,String bloomFilter,int scope); 


HColumrlDescriptor (String familyName); 
HColumrlDescriptor (byte ] familyName) : 
HColumrlDescriptor (HColumrlDescriptor desc); 


HColumrlDescriptor (byte[ ] familyName, int maxVersions, String compression, boolean inMemory, 
boo; Lean blockCacheEnabled, int timeToLive, String bloomFilter) ; 


Vi Y Fats PR E, FH P x np DA AB 2r i EE Be, AL HE FA Ge V PC E M π 
































K 9-2 所 示 。 
表 9-2 设置 参数 的 方法 

方 法 fi æ 
Byte[ ] getName()/String getNameAsString() 获取 列 艇 名字 ,返回 
Int getMaxVersions() 获取 列 簇 所 能 保留 的 最 大 版 本 数 
void setMaxVersions(int maxVersion) 设置 列 簇 保留 的 最 大 版 本 数 
synchronized int getBlocksize() 获取 列 簇 存储 块 的 大 小 
void setBlocksizeCint s) BEEN RERE I 
boolean isBlockCacheEnable() ἈΠΕ TZ P f Je AF fe VE GR BE HF He 
void setBlockCacheEnable( boolean blockCacheEnable) 设置 允许 (不 允许 ) 使 用 缓存 块 
Int getTimeToTive() 获取 数据 的 生存 时 间 
void setTimeToLive(int timeToLive) 设置 数据 的 生存 时 间 





boolean isInMemory() 


获取 in-memory 的 属性 值 





void setInMemory(boolean inMemory) 


TEE in-memory 的 属性 值 














Int getScope() 知晓 能 否 跨 集群 同步 
void setScope(int scope) 跨 集群 同步 开启 或 关闭 
Static byte[] isLegalFamilyName(byte[ ] Ὁ) 10 i ἘΞ d FF ZEIGE b 


9.1.3 属性 


除了 添加 、 设 置 与 列 和 能 有 关 的 属性 ,HBase 同样 提供 了 许多 方法 来 设置 表 的 其 他 属性 ， 


如 表 9-3 所 示 。 
表 9-3 设置 属性 的 方法 
;. ”法 


di xk 





byte[ ] getNameO 





String getNameAsString() 





void setName(byte[ ] name) 





RRIKA F 





续 表 
d Æ 
获取 表 中 region 设置 的 大 小 
设置 表 中 region 的 大 小 


方 法 





Long getMaxFileSize() 





void setMaxFileSize(long maxFileSize) 








boolean isReadOnly() 获取 只 读 参 数 的 属性 值 
void setReadOnly( boolean readOnly) 设置 只 读 参 数 的 值 





获取 写 缓冲 区 的 大 小 
设置 写 缓冲 区 的 大 小 

获取 延 时 日 志 刷 写 的 开启 状态 
开启 或 关闭 延 时 日 志 刷 写 


long getMemStoreFlushsize() 








void set MemStoreFlushsize(long memStoreFlushsize) 





synchronized boolean isDeferredLogFlush() 








void setDeferredLogFlush(boolean isDeferredLogFlush) 
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基础 操作 


客户 端 提供 了 HBaseAdmin 类 来 实现 建 表 、 创 建 列 能 .检查 表 是 否 存 在 、 修 改 表 结 构 等 
功能 。 
进行 其 他 表 操 作 的 前 提 是 首先 实例 化 HBaseAdmin 类 ,其 构造 函数 为 


9.2.1 


HBaseAdmin (Configuration conf) 


考虑 到 安全 和 效率 ,具有 管理 功能 的 API 实例 应 该 在 使 用 后 进行 销毁 , HBaseAdmin 
类 实例 也 不 例外 。 为 此 ,HBaseAdmin 类 实现 了 一 个 Abortable 接口 的 方法 。 


void abort (String why, Throwable e) 
除了 这 两 个 方法 ,HBaseAdmin 类 还 有 以 下 接口 ,如 表 9-4 所 示 。 
表 9-4 HBaseAdmin 类 提供 的 接口 
方 法 18 述 





HMasterInterface getMaster() 
i τὶ . 获取 master 远程 对 象 


throws MasterNotRunningException ,ZooKeeperConnectionException 





boolean isMasterRunning() 


检查 master 运行 状态 





HConnection getConnection() 


获取 连接 实例 





Configuration getConfiguration() 


访问 HBaseAdmin 的 配置 实例 





closeO 


关闭 HBaseAdmin 实例 





实现 HBaseAdmin 实例 后 ,用 户 就 可 以 着 手 进 行 表 的 各 类 操作 。 其 中 ,首要 的 就 是 建 表 。 
HBase 提供 的 建 表 方法 如 下 。 


void createTable (HTableDescriptor desc) 
void createTable (HTableDescriptor desc, byte ] startKey,bytel ] endKey, int numRegions) 


void createTable (HTableDescriptor desc, bytel J[] splitKeys) 


void createTableAsync (HTableDescriptor desc, bytel ] L1 splitKeys) 


第 一 个 方法 相对 简单 ,只 创建 一 个 表 , 这 个 表 没 有 任何 region。 后 两 个 函数 是 创建 表 同 
时 分 配 好 指定 数量 的 region. 
完成 建 表 后 ,用 户 就 可 以 对 该 表 进 行 一 系列 操作 ,如 表 9-5 所 示 。 
RIS 表 操 作 的 方法 
Ji Β πα æ 


boolean tableExists(String table) 











检查 表 table 是 否 存在 


boolean tableExistsCbyte[ ] table) 
H TableDescriptor[ | list Tables) 获取 所 有 的 已 创建 表 
HTableDescriptor getTableDescriptor( byte[ | table) 获取 表 table 的 表 描 述 符 











对 于 一 个 创建 好 的 表 , 用 户 还 可 以 对 其 状态 进行 操作 ,如 启用 、 禁 用 及 检查 等 。 对 表 的 
状态 改变 与 用 户 对 表 的 操作 有 关 。 一 个 启用 状态 下 的 表 , 用 户 是 无 法 对 其 进行 删除 或 修改 
其 表 结 构 , 如 表 9-6 所 示 。 

表 9-6” 表 状态 操作 方法 
方 法 描 述 


void disableTable(String table) 

void disableTableCbyte[ ] table) 

void disableTableAsync(String table) 
void disableTableAsync(byte[ ] table) 
void enableTable(String table) 











禁用 表 table 











void enableTableCbyte[] table) 启用 表 table 





void enableTableAsync(String table) 





void enableTableAsync(byte[ ] table) 





void isTableEnable(String table) 
void isTableEnable(byte[ ] table) 
void isTableDisabled(String table) 
void isTableDisabled(byte[ ] table) 
void isTableAvailable(String table) 
void isTableAvailable(byte[ ] table) 





检查 表 table 是 否 被 启用 





检查 表 table 是 否 被 禁用 








检查 表 table 是 否 存 在 








明确 已 经 存在 表 的 状态 ,并 将 其 设置 为 禁用 状态 后 ,用 户 就 可 以 对 其 进行 删除 及 修改 表 
结构 操作 。HBase 提供 的 方法 如 表 9-7 所 示 。 
59-7 修改、 删除 表 的 方法 
方 法 描 述 
void deleteTable(String table) 


void deleteTable(byte[ ] table) 
void modifyTable(byte[ ] table. HTableDescriptor des) HE des 中 结构 修改 表 table 





删除 表 table 











实时 计算 与 应 用 





modifyTable 方法 中 ,需要 先 实例 化 一 个 HTableDescriptor 实例 ,再 对 此 实例 进行 结构 
修改 。 同 样 ,HBase 也 提供 了 HTableDescriptor 实例 修改 的 方法 ,如 表 9-8 所 示 。 


表 9-8 HTableDescriptor 实例 的 方法 
方 ”法 描 x 





void addColumn(byte[ ] table. HColumnDescriptor des) 





H TableDescriptor Sc (5) J& Ji — 4 9i] fi 
void addColumn(String table, HColumnDescriptor des) 





void deleteColumn(byte[ ] table.byte[ ] column) 





H TableDescriptor 实例 删除 一 个 列 簇 
void deleteColumn(String table, String column) 





void modifyColumn( byte[ ] table. HColumnDescriptor des) 





HTableDescriptor 实例 修改 一 个 列 簇 





void modifyColumn( String table. HColumnDescriptor des) 


【代码 实例 1] 


public void hbase admin()throws IOException { 

Configuration conf = HBaseConfiguration.create() ; 
conf.set ("hbase.zookeeper.quorum", "mainl"); 
HBaseAdmin admin = new HBaseAdmin (conf) ; 
HTableDescriptor desc - new HTableDescriptor (tad) FO) 
HColumnDescriptor coldesc = new HColumnDescriptor (cl) ; 
desc .addFamily (coldesc) ;@) 
boolean avail = admin.tableExists (tad) ;@ 
System.out.println ("Table available: "+ avail); 
admin.createTable (desc) ;® 
boolean availab - admin.tableExists (tad); 
System.out.println("Table available: "+ availab) ;© 
HTableDescriptor{ | tdesc = admin. listTables (); 
for (HTableDescriptor td : tdesc) {© 

System.out.println (td); 
} 
HTableDescriptor td = admin.getTableDescriptor (tad); 
System.out.println(td);(7) 
try{® 

admin.deleteTable (tad) ; 
} catch (IOException event) { 

System.err.println ("Delete Error: "+ event.getMessage ()); 
} 
admin.disableTable (tad) 19) 
boolean isDb = admin.isTableDisabled (tad) ;WO 
boolean isAl = admin.isTableAvailable (tad) ;@ 
System.out.println("Disable: "+ isDb+ ";Available: "+ isAl); 
admin.deleteTable (tad) ;2 
boolean isAl2 = admin.isTableAvailable (tad); 


System.out.println("Available: "+ isAl2);(3 
admin.createTable (desc) ; 
boolean isEb = admin.isTableEnabled (tad) ; (1 
System.out.println("Enabled: "+ isEb); 
HColumnDescriptor coldesc2 - new HColumnDescriptor (c2); 
td.addFamily (coldesc2); 
td.setMaxFileSize(1024 * 1024 * 12041) 25 
admin.disableTable (tad) ; 
admin.modifyTable (tad, td) ; 
admin.enableTable (tad) ;® 
HTableDescriptor td3 - admin.getTableDescriptor (tad); 
System.out.println("Is equals: " 1 td.equals (td3)); 
System.out.println("New schema: "+ td3);() 

) 


Hep Ogg eder. @ 添 加 列 复 描述 符 到 表 描 述 符 中 ; 四 检查 表 是 否 存在 , 若 不 存 
在 输出 false, 如 图 9-1 所 示 ; @ 使 用 createTable() 方 法 建 表 ; @ 再 次 检查 表 是 否 存在 ,因为 
表 已 经 建 好 , 故 输 出 trues @ 获 取 所 有 表 的 描述 符 并 输出 其 中 信息 ; 获取 表 tad 的 表 描 述 
符 并 输出 ; @ 尝 试 删除 一 个 被 启用 的 表 , 捕 获 异 常 信 息 并 输出 ; OHR tad 的 状态 设置 为 禁 
用 ; 四 检查 表 是 否 被 禁用 ; @ 检 查 表 是 否 存 在 ; DHK tad HR: 四 重新 检查 表 是 否 存 
在 ,并 将 信息 输出 ,如 图 9-2 所 示 ; @ 检 查 表 是 否 被 启用 ; @@ 对 表 结 构 增 加 列 徐 ,并 修改 最 
大 文件 限制 属性 ; 四 先 禁用 表 . 再 修改 表 , 最 后 启用 表 ; @ 检 查 表 结 构 是 否 已 经 被 修改 
成 功 。 


“C:\Program Files\Java\jdkl.7.0_80\bin\java” .. 
logiji WARN No appenders could be found for logger (org apache. hadoop metrics2. lib. MutableMetricsFactory) 





[ogij WARN Please initialize the logij system properly 

[Logij: WARN See http://logging apache. org/1ogi/1.2/fag htnlfnocenfig for more info 

[Table available: false 

Table available: true 

test’, {NAME => ‘coli’, DATA BLOCK ENCODING => NONE’, BLOOMFILTER => ‘ROW’, REPLICATION SCOPE => 'O', VERSIONS =>'1', COMPI 
| testAdmin', (NAME => ‘coli’, DATA BLOCK ENCODING => ‘NOME’, BLOOMFILTER => 'ROW', REPLICATION SCOPE 52/0’, VERSIONS => ‘1’, 
| testAdmin’, (NAME => coli’, DATA BLOCK ENCODING => ‘NONE’, BLOOMFILTER => ROW’, REPLICATION SCOPE => '0’, VERSIONS => ‘1’, 
Delete Error: testAdmin 

Disable: true;Availsble: true 

Available: false 

Enabled: true 

[Is equals: true 

[ew schema: 'testAdmin', (TABLE ATTRIBUTES => (MAX FILESIZE => 1262485504’ }, (NAME Ξ» ’ coli’, DATA BLOCK ENCODING => ’ NONE’, 











图 9-1 程序 执行 结果 


9.2.2 集群 管理 


除了 之 前 的 基础 操作 ,客户 端 还 通过 HBaseAdmin 类 提供 了 对 集群 的 管理 操作 ,包含 
对 集群 状态 的 查看 ,执行 表 级 任务 ,以 及 对 region 服务 器 的 管理 等 。HBase 所 提供 的 方法 
如 表 9-9 所 示 。 


大 数据 
OB 实时 计算 与 应 用 


hbase(main) :122 list 
TABLE 

test 

1 row(s) in 0.0100 seconds 


["test"] 
hbase(main) :123:6> list 


TABLE 

test 

testAdmin 

2 row(s) in 0.0110 seconds 


=> ["test", "testAdmin"] 
hbase(main) :124:@> | 





图 9-2 程序 执行 前 后 数据 存储 结果 


表 9-9 HBase 提供 的 集群 操作 方 














方 法 描 述 
Static void checkHBaseAvailable(Configuration conf) 验证 客户 端 能 否 与 HBase 集群 通信 
ClusterStatus getClusterStatus() 查询 集群 状态 信息 





void closeRegion( String regionName, String hostandPort) 





关闭 region 服务 器 中 特定 的 region 
void closeRegion( byte[ | regionName.String hostandPort) 





void flush(byte[] tableNameOrRegionName) 
一 一 一 一 - 将 region 中 的 数据 刷 写 到 磁盘 中 
void flush String tableNameOrRegionName) 








void compact(byte[ ] tableNameOrRegionName) x i 
: sf : 合并 文件 
void compact( String tableNameOrRegionName) 


void majorCompact(byte[ ] tableNameOrRegionName) 与 compact 方法 类 似 ,只 是 在 后 台 队 
void majorCompact(String tableNameOrRegionName) 列 操作 


void split(String tableNameOrRegionName) 





- - 拆 分 region 或 整 表 
void splitCbyte[ ] tableNameOrRegionName) 





void split(String tableNameOrRegionName, String splitPoint) 按照 行 键 splitPoint HF 4} region 或 





void split(byte[] tableNameOrRegionName.byte[ ] splitPoint) | 整 表 











void assign(byte[] region; boolean force) 将 region 在 region 服务 器 中 上 线 
void unassign(byte[] region. boolean force) 将 region 在 region 服务 器 中 下 线 
将 region 从 当前 的 region 服务 器 移动 


void move(byte[] region,byte[] DesRegion) dá ion 
至 目标 服务 器 





boolean balanceSwitch(boolean b) 开启 /关闭 region 的 负载 均衡 算法 





对 每 台 region 服务 器 中 上 线 的 region 
进行 负载 均衡 算法 处 理 


boolean balancer() 

















void shutdown() 关闭 集群 
Void stopMaster() XH] master 节点 
void stopRegionServer( String hostNamePort) 关闭 region 服务 器 hostNamePort 


【代码 实例 2] 


public void hbase Hadmin()throws IOException { 
Configuration conf = HBaseConfiguration.create(); 
conf.set ("hbase.zookeeper.quorum", "mainl"); 


HBaseAdmin admin - new HBaseAdmin (conf) ; 
ClusterStatus status — admin.getClusterStatus () πο 


System. 
System. 
System. 
System. 
System. 
System. 
System. 
System. 
System. 
System. 


out.println ("Cluster Status:Wn----------- "); 
out.println("HBase Version: "+ status.getHBaseVersion()); 
out.println("Version: "+ status.getVersion()); 
out.println("No. Live Servers: "+ status.getServersSize()); 
out.println ("Cluster ID: "+ status.getClusterId()); 
out.println("Servers: "+ status.getServers()); 
out.println("No. Dead Servers: "+ status.getDeadServers()); 
out.println ("Dead Servers: "+ status.getDeadServerNames () ) ; 
out.println("No. Regions: "+ status.getRegionsCount () ) ; 
out.println ("Regions in Transition: "+ 


status.getRegionsInTransition()); 


System. 
System. 
System. 


out.println("No. Requests: "+ status.getRequestsCount () ) ; 
out .println ("Avg Load: "+ status.getAverageLoad()); 
out.println("AnServer Info\n------------- "yr 


for (ServerName server : status.getServers()) 1 
System.out.println("Hostname: "+ server.getHostname ()); 
System.out.println ("Host and Port: "+ server.getHostAndPort ()) ; 
System.out.println ("Server name: "+ server.getServerName ()); 
System.out.println("RPC Port: "+ server.getPort ()); 

System.out.println ("Start Code: "+ server.getStartcode()); 

ServerLoad load = status.getLoad (server) iO 

System.out .println ("\nServer Load:\n-------------- è 

System.out.println("Load: "+ load.getLoad()); 

System.out.println ("Max HeaP (MB): "+ load.getMaxHeapMB () ) ; 

System.out.println ("Memstore Size (MB): "+ load.getMemstoreSizeInMB ()) ; 

System.out.println("No. Regions: "+ load.getNumberOfRegions ()); 

System.out.println("No. Requests: "+ status.getRequestsCount ()) ; 

System.out.println("Storefile Index Size (MB): "+ 
load.getStorefileIndexSizeInMB()); 

System.out.println("No. Storefiles: " * load.getStorefiles()); 

System.out.println("Storefile Size (MB): "+ load.getStorefileSizeInMB()); 

System.out.println ("Used Heap (MB): "+ load.getUsedHeapMB ()) ; 

System.out.println ("M nRegion Load:\n-------------- "jr 

for(Map.Entry«byte| ],RegionLoad» entry : load.getRegionsLoad() .entrySet () ) 


{ 


® 
System.out.println("Region: "+ Bytes.toStringBinary (entry.getKey ())); 
RegionLoad regionLoad = entry.getValue ();(5) 
System.out.println("Name: "+ 


Bytes.toStringBinary (regionLoad.getName|())); 


System.out.println("No. Stores: "+ regionLoad.getStores ()); 
System.out.println("No. Storefiles: "+ regionLoad.getStorefiles ()); 
System.out .printin ("Storefile Size (MB): "+ 


regionLoad.getStorefileSizeMB ()); 


System.out .printin("Storefile Index Size (MB): "+ 


regionLoad.getStorefileIndexSizeMB ()); 


System.out.printiln ("Memstore Size (MB): "+ 


regionLoad.getMemStoreSizeMB () ) 7 


System.out.println("No. Requests: "+ regionLoad.getRequestsCount ()); 
System.out.println("No. Read Requests: "+ 





regionLoad.getReadRequestsCount () ) ; 
System.out.println("No. Write Requests: "+ 

regionLoad.getWriteRequestsCount ()) ; 
System.out.println(); 


其 中 ,获取 集群 状态 ; @ 和 迭代 输出 所 有 服务 器 信息 ; @ 获 取 当 前 服务 器 负载 信息 ; 
Qi RSIS ATA region fii s 加 获取 当前 region 负载 信息 。 
运行 结果 如 图 9-3 所 示 。 


Togj:WARN Wo appenders could be found for logger (org apache hadoop.metrics2. lib MutableMetricsFactory) 
logij:WARE Please initialize the logdj system properly. 
‘log4j: WARN See http: //logging. apache. org/logij/1.2/fag html#noconfig for more info. 


Cluster Status: 











Hase Version: 1.1.5 

Version: d 

No. Live Servers: 3 

Cluster ID: 746ed62-3b63-4153-828£-deetSe8£9e4b 
Servers: [main3, 16020, 1480668760337, main2, 16020, 1480668759225, maint, 16020, 1480668757906] 
No. Dead Servers: 0 

Dead Servers: [] 

Wo. Regions: 4 

Regions in Transition: {} 

得 No. Requests: 0 

Ave Load: 1.3333333333333333 

Server Info 








Mostname: main3 

Most and Port: main3:16020 

Server name: main3, 16020, 1480668760337 
RPC Port: 16020 

Start Code: 1480668760337 


Server Load: 








Load: 1 

Max HeaP (B): 15944 
Menstore Size MB): 0 

No. Regions: 1 

Mo. Requests: 0 

Storefile Index Size (B): 0 
No. Storefiles: 1 
Storefile Size (NB): 0 

Used Heap (MB): 97 


Region Load: 





hbase: namespace, , 1180668767027. 701413803217 £90 76£b3£c36c£b£ 41209. 





Name: hbase:namespace, , 1480668767027. Tc443803a47f9cT76fb3fc36cfbf412e9. 
No. Stores: 1 








图 9-3 代码 运行 情况 











Storefile Size MB): 0 
Storefile Index Size (NB): 0 
store Si 





το 
No. Read Requests: 0 
No. Write Requests: 0 


Mostname: main2 

Host and Port: main2:16020 

Server name: main2, 16020, 1480668759225 
RPC Port: 1! 
Start Code: 1480668759225 





Server Load: 


Load: | 

Max HeaP (MB): 2969 
Memstore Size MB): 0 

No. Regions: 1 

No. Requests: 0 

Storefile Index Size (MB): 0 
No. Storefiles: 4 
Storefile Size MB): 0 

Used Heap (MB): 21 


Region Load: 





Region: test, , 1490669323198. 2a34669cb27eaedcebbl3f4ecdf8c171 
Mame: test, , 1490669323198. 2234669 cb27 eaedcebb13£lecdf8elT1. 

Stores: 2 

Ho. Storefiles: 4 

Storefile Size MB): 0 

Storefile Index Size (B): 0 

Μεπείοτε Size (MB): 0 

No. Requests: 385 
No. Read Requests: 
No. Write Request 











Hostname: main4 

Most and Port: maini:16020 

Server name: main4, 16020, 1480668757906 
RPC Port: 1 
Start Code: 1480668757906 





Server Load: 


Load: 2 

Max HeaP (MB): 15944 
Memstore Size (MB): 0 

No. Regions: 2 

No. Requests: 0 

Storefile Index Size (MB): 0 
No. Storefiles: 2 
Storefile Size MB): 0 

Used Heap MB): 213 





图 9-3( 4%) 








Region Load: 





Region: hbase:meta,,1 

Name: hbase:meta, ,1 

1ο. Stores: 1 

Mo. Storefiles: 2 
Storefile Size (MB): 0 
Storefile Index Size (ΜΒ): 0 
Memstore Size (MB): 0 

No. Requests: 884 

No. Read Requests: 876 

No. Write Requests: 8 


Region: testAdmin, , 1190692539510. e18683de73b£0 a8 fb127e44cd4e59056. 
Mame: testAdmin, , 1190692539540, e 18683de73b£0a8£0127 e14cd1e59056. 
Ho. Stores: 2 

Wo. Storefiles: 0 

Storefile Size (B): 0 

Storefile Index Size (B): 0 

Memstore Size MB): 0 

No. Requests: 0 

No. Read Requests: 0 

No. Write Requests: 0 


9-3 (BE) 


本 章 小 结 


CD 本 章 讲解 了 HBase 管理 的 相关 知识 ,让 读者 了 解 HBase 管理 的 数据 结构 以 及 对 
HBase 表 及 客户 端的 管理 。 

(2) 详细 介绍 了 HBase 表 和 列 簇 内 的 数据 如 何 存 储 以 及 何 时 存储 。 说 明 HBase PÆ, 
列 禾 和 属性 的 构造 函数 及 相关 参数 设置 。 

(3) 首先 介绍 了 客户 端 提供 HBaseAdmin 类 实现 建 表 、 创 建 列 簇 ,检查 表 是 否 存 在 \ 修 
改 表 结构 等 功能 ,接着 通过 实例 详细 介绍 了 客户 端 对 表 状 态 、 表 结构 的 具体 操作 。 

(4) 结合 实例 介绍 了 客户 端 HBaseAdmin 类 提供 的 对 集群 管理 操作 方法 ,包含 对 集群 
状态 的 查看 ,执行 表 级 任务 以 及 对 region 服务 器 的 管理 等 。 


J Β 
(OO 以 下 ( ΑΕΠΙ. 
Α. SBE B. # C. 属性 D. 列 
(2) 列 名 可 以 由 ( MR 
A. 可 见 字符 B. 任意 字符 
C. 特定 字符 D. 任意 二 进 制 字符 


(3) 用 户 通 过 什么 属性 来 创建 表 , 其 中 具体 有 什么 表示 ? 
(4) HBaseAdmin 类 提供 了 哪些 功能 ? 请 具体 说 明 。 
(5) 请 写 出 获取 集群 状态 的 实例 方法 。 


$4] 1} Storm 


101 fF ZA X Storm 


10.1.1 Storm 能 做 什么 


在 大 数据 处 理 方面 ,相信 大 家 已 经 对 Hadoop 耳熟能详 了 。Hadoop 处 理 的 是 存放 在 其 
分 布 式 文件 系统 HDFS 上 的 数据 ,Hadoop 使 用 磁盘 作为 中 间 交 换 的 介质 ,在 对 海量 数据 进 
行 离线 分 析 时 得 心 应 手 , 但 处 理 实时 数据 流 却 是 力 有 未 逮 。 

Storm 是 一 个 开源 的 分 布 式 实时 计算 系统 ,可 以 简单 ,可靠 地 处 理 大 量 的 数据 流 。 
Storm 有 很 多 使 用 场景 ,如 实时 分 析 、 在 线 机 器 学 习 、 持 续 计 算 、 分 布 式 RPC, ETL 等 。 
Storm 支持 水 平 扩展 ,具有 高 容错 性 ,保证 每 个 消息 都 会 得 到 处 理 ,而 且 处 理 速度 很 快 (在 一 
个 小 集群 中 ,每 个 节点 每 秒 可 以 处 理 数 以 百 万 计 的 消息 ) 。Storm 的 部 署 和 和 运 维 都 很 便捷 ， 
更 为 重要 的 是 可 以 使 用 任意 编程 语言 来 开发 应 用 。 


10.1.2 Storm 的 特性 


l. 编程 模型 简单 

在 大 数据 处 理 方 面相 信 大 家 对 Hadoop 已 经 耳熟能详 .基于 Google MapReduce 来 实现 
的 Hadoop 为 开发 者 提供 了 map ,reduce 原 语 ,使 并 行 批 处 理 程序 变 得 非常 简单 和 优美 。 同 
样 ,Storm 也 为 大 数据 的 实时 计算 提供 了 一 些 简单 优美 的 原 语 , 大 大 降低 了 开发 并 行 实时 处 
理 任 务 的 复杂 性 ,帮助 用 户 快速 .高效 地 开发 应 用 。 

在 Storm 集群 中 运行 的 topology 主要 有 三 个 实体 : 工作 进程 、 线 程 和 任务 。Storm ΠΕ 
群 中 的 每 台 机 器 上 都 可 以 运行 多 个 工作 进程 ,每 个 工作 进程 又 可 创建 多 个 线程 ,每 个 线程 可 
以 执行 多 个 任务 .任务 是 真正 进行 数据 处 理 的 实体 ,而 Storm 中 的 Spout. Bolt 就 是 作为 一 
个 或 者 多 个 任务 的 方式 执行 的 。 因 此 ,计算 任务 在 多 个 线程 .进程 和 服务 器 之 间 并 行进 行 ， 
支持 灵活 的 水 平 扩展 。 

2. 高 可 靠 性 

Storm 可 以 保证 Spout 发 出 的 每 条 消息 都 能 被 完全 处 理 , 这 直接 区 别 于 其 他 实时 系统 。 
Spout 发 出 的 消息 后 续 可 能 会 触发 产生 成 千 上 万 条 消息 ,可 以 形象 地 理解 为 一 棵 消息 树 ,其 
中 Spout 发 出 的 消息 为 树 根 ,Storm 会 跟踪 这 棵 消息 树 的 处 理 情 况 , 只 有 当 这 棵 消息 树 中 的 
所 有 消息 都 被 处 理 了 ,Storm 才 会 认为 Spout 发 出 的 消息 已 经 被 完全 处 理 。 如 果 这 棵 消息 
树 中 的 任何 一 个 消息 处 理 失败 ,或 者 整 棵 消息 树 在 限定 的 时 间 内 没有 被 完全 处 理 , 那 么 


spout 发 出 的 消息 就 会 重 发 。 

考虑 到 尽 可 能 减少 对 内 存 的 消耗 .Storm 并 不 会 跟踪 消息 树 中 的 每 个 消息 ,而 是 采用 了 
一 些 特殊 的 策略 , 它 把 消息 树 当 作 一 个 整体 来 跟踪 ,对 消息 树 中 所 有 消息 的 唯一 ID 进行 异 
或 计算 ,通过 是 否 为 零 来 判定 spout 发 出 的 消息 是 否 被 完全 处 理 , 极 大 地 节约 了 内 存 并 简化 
了 判定 逻辑 。 在 这 种 模式 下 ,系统 每 发 送 一 个 消息 ,都 会 同步 发 送 一 个 ackfail, 这 对 网 络 的 
带宽 会 有 一 定 的 消耗 ,因此 如 果 对 系统 的 可 靠 性 要 求 不 高 ,可 通过 使 用 不 同 的 emit 接口 关 
闭 该 模式 。 

上 面 所 说 的 ,Storm 保证 了 每 个 消息 至 少 被 处 理 一 次 ,但 是 对 于 有 些 计算 场合 ,会 严格 
要 求 每 个 消息 只 被 处 理 一 次 ,幸而 Storm 在 0.7.0 版 本 中 引入 了 事务 性 拓扑 ,成 功 解决 了 这 
个 问题 。 

如 果 在 消息 处 理 过 程 中 抛 出 一 些 异 常 ,Storm 会 重新 安排 这 个 出 问题 的 处 理 单元 。 
Storm 保证 一 个 处 理 单元 永远 运行 (除非 用 户 显 式 杀 掉 这 个 处 理 单元 )。 当 然 , 如果 处 理 单 
元 中 存储 了 中 间 状 态 ,那么 当 处 理 单元 重新 被 Storm 启动 时 ,需要 应 用 自己 处 理 中 间 状 态 
的 恢复 。 

4 支持 多 种 编程 语言 

除了 用 Java 实现 spout 和 bolt 外 ,还 可 以 使 用 任何 用 户 熟 悉 的 编程 语言 来 完成 这 项 工 
作 , 这 一 切 得 益 于 Storm 所 谓 的 多 语言 协议 。 多 语言 协议 是 Storm 内 部 的 一 种 特殊 协议 ， 
允许 spout 或 者 bolt 使 用 标准 输入 和 标准 输出 进行 消息 传递 ,传递 的 消息 为 单行 文本 或 者 
json 编码 的 多 行 。 

Storm 支持 多 语言 编程 ,主要 是 通过 ShellBolt, ShellSpout 和 ShellProcess 类 来 实现 
的 。 这 些 类 都 实现 了 IBolt 和 ISpout 接口 ,以 及 让 shell 通过 Java 的 ProcessBuilder 类 来 执 
行 脚本 或 者 程序 的 协议 。 可 以 看 到 ,采用 这 种 方式 ,每 个 tuple 在 处 理 时 都 需要 进行 json 的 
编 解码 ,因此 在 吞吐 量 上 会 有 较 大 影响 。 

5. 支持 本 地 模式 

Storm 有 一 种 本 地 模式 ,也 就 是 在 进程 中 模拟 一 个 Storm 集群 的 所 有 功能 ,以 本 地 模式 
运行 topology 与 在 集群 上 运行 topology 类 似 , 这 对 我 们 开发 和 测试 来 说 非常 有 用 。 

6. 高 效 

用 ZeroMQ 作为 底层 消息 队列 ,保证 消息 能 快速 被 处 理 。 

7. 运 维和 部 署 简单 

Storm 计算 任务 是 以 “拓扑 ”为 基本 单位 ,每 个 拓扑 完成 特定 的 业务 指标 ,拓扑 中 的 每 个 
逻辑 业务 节点 实现 特定 的 逻辑 ,并 通过 消息 相互 协作 。 

实际 部 署 时 , 仅 需 要 根据 实际 情况 配置 逻辑 节点 的 并 发 数 , 而 不 需要 关心 部 署 到 集群 中 
的 哪 台 机 器 。 所 有 的 部 署 仅 需 通过 命令 提交 一 个 jar 包 , 全 自动 部 署 。 停 止 一 个 拓扑 ,也 只 
需 通 过 一 个 命令 操作 。 

Storm 支持 动态 增加 节点 ,新 增 节点 自动 注册 到 集群 中 ,但 现 有 运行 的 任务 不 会 自动 负 
载 均衡 。 

8. 图 形 化 监控 

图 形 界面 可 以 监控 各 个 拓扑 的 信息 ,包括 每 个 处 理 单元 的 状态 和 处 理 消息 的 数量 。 


10.1.3 Storm 分 布 式 计 算 结构 
Storm 的 分 布 式 计 算 结构 如 图 10-1 所 示 。 


supervisor 










supervisor 


task 


图 10-1 Storm 分 布 式 计算 结构 


nimbus: 负责 资源 分 配 和 任务 调度 。 

supervisor: 负责 接受 nimbus 分 配 的 任务 ,启动 和 停止 属于 自己 管理 的 worker 进程 。 

Worker; 运行 具体 处 理 组 件 逻 辑 的 进程 。 

task: Worker 中 每 一 个 Spout/Bolt 的 线程 称 为 一 个 task。 同 一 个 Spout/Bolt 的 task 
可 能 会 共享 一 个 物理 线程 ,该 线程 称 为 executor。 

Storm 架构 中 使 用 Spout/Bolt 编程 模型 来 对 消息 进行 流 式 处 理 。 消 息 流 是 Storm 中 
对 数据 的 基本 抽象 ,一 个 消息 流 是 对 一 条 输入 数据 的 封装 。 源 源 不 断 输入 的 消息 流 以 分 布 
式 的 方式 被 处 理 ,Spout 组 件 是 消息 生产 者 ,是 Storm 架构 中 的 数据 输入 源头 , 它 可 以 从 多 
种 异 构 数据 源 读 取 数据 ,并 发 射 消息 流 。Bolt 组 件 负 责 接收 Spout 组 件 发 射 的 信息 流 , 并 完 
成 具体 的 处 理 逻 辑 。 在 复杂 的 业务 逻辑 中 可 以 串联 多 个 Bolt 组 件 , 在 每 个 Bolt 组 件 中 编写 
各 自 不 同 的 功能 ,从 而 实现 整体 的 处 理 逻 辑 。 





10.2 构建 topology 


10.2.1 Storm 的 基本 概念 


Storm 是 一 套 分 布 式 的 .可 靠 的 .可 容错 的 用 于 处 理 流 式 数据 的 系统 。 处 理工 作 会 被 委 
派 给 不 同类 型 的 组 件 ,每 个 组 件 负责 一 项 简单 的 ,特定 的 处 理 任务 。Storm 集群 的 输入 流 由 
名 为 Spout 的 组 件 负责 。Spout 将 数据 传递 给 名 为 Bolt 的 组 件 , 后 者 将 以 某 种 方式 处 理 这 
些 数据 。 例 如 Bolt 以 某 种 存储 方式 将 这 些 数据 持久 化 ,或 者 将 它们 传递 给 另外 的 Bolt。 在 
这 里 可 以 把 一 个 Storm 集群 比 作 一 条 由 Bolt 组 件 组 成 的 链 ,每 个 Bolt 对 Spout 暴露 出 来 的 
数据 做 某 种 方式 的 处 理 。 

为 了 说 明 这 个 概念 ,在 这 里 可 以 举 一 个 简单 的 例子 。 昨 天 晚上 看 新 闻 时 ,播音 员 们 一 直 
在 谈论 着 政治 家 以 及 他 们 阵营 的 各 种 话题 ,在 这 期 间 播音 员 们 一 直 重 复 着 不 同 的 名 字 ,于 是 


大 数据 
QD zasa o — 0000000000000 


人 们 想 知 道 是 否 每 个 名 字 被 提 及 了 相同 的 次 数 ,或 者 提 到 的 次 数 是 否 有 偏重 。 在 这 里 就 可 
以 把 播音 员 们 说 的 字幕 认为 是 数据 输入 流 , 可 以 让 Spout 从 一 个 文件 (或 者 套 接 字 ,通过 
HTTP ,或 者 一 些 其 他 方法 ) 读 取 输 入 。 当 文本 行 
文本 行 流 分 隔 成 单词 。 单 词 流 被 传递 到 另 一 个 
ReadSubtitlesS| 
Bolt, 在 这 个 Bolt m RA μα. -ᾱ 
定义 好 的 政治 家 名 单列 表 作 比较 。 每 作 一 次 比 [Separate Wordstot) 
较 , 第 二 个 Bolt 会 在 数据 库 中 增加 一 次 那个 名 字 Words 
的 计数 。 想 查看 结果 时 ,只 要 查询 数据 库 , 该 数 
据 库 在 数据 到 达 时 会 实时 更 新 。 所 有 组 件 的 排 update Mentions set times= 
列 (Spouts 和 Bolts) 及 它们 的 连接 被 称 为 一 个 (E Umerl Where done foobar 
topology( 见 图 10-2)。 这 样 就 可 以 定义 整个 集群 (ps) 
中 每 个 Bolt 和 Spout 的 并 行 度 ,从 而 可 以 对 图 10-2 一 个 简单 的 topology 
topology 进行 无 限 扩 展 。 














10.2.2 构建 topology 


在 本 节 中 ,会 创建 一 个 storm 工程 和 第 一 个 storm topology。 在 开始 之 前 ,理解 Storm 
的 操作 模式 很 重要 。 运 行 Storm 有 两 种 方式 : 本 地 模式 和 远程 模式 。 

1) 本 地 模式 

在 本 地 模式 中 ,storm topologies 运行 在 本 地 机 器 一 个 单独 的 JVM 中 。 由 于 是 最 简单 
的 查看 所 有 的 topology 组 件 一 起 工作 的 模式 ,这 种 方式 被 用 来 开发 .测试 和 调试 。 在 这 种 
模式 下 ,可 以 调整 参数 ,可 以 看 到 topology 在 不 同 的 storm 配置 环境 下 是 怎么 运行 的 。 为 
了 以 本 地 模式 运行 topologies, 需 要 下 载 Storm 的 开发 依赖 包 , 其 中 包含 开发 和 测试 
topology 所 需 的 所 有 东西 。 

当 建 立 第 一 个 storm 工程 时 ,很 快 就 可 以 看 到 是 怎么 回 事 了 。 

在 本 地 模式 运行 topology 与 在 Storm 集群 中 运行 它 是 类 似 的 。 确 保 所 有 的 组 件 线 程 
安全 是 重要 的 ,因为 当 它们 被 部 署 到 远程 模式 中 时 ,它们 可 能 运行 在 不 同 的 JVM 中 或 者 在 
不 同 的 物理 机 器 上 ,这 样 它们 之 间 没 有 直接 的 交流 或 者 内 存 共享 。 

本 章 的 所 有 示例 都 以 本 地 模式 运行 。 

2) 远程 模式 

在 远程 模式 中 ,提交 topology 到 Storm 集群 ,该 集群 由 许多 进程 组 成 ,通常 运行 在 不 同 
的 机 器 上 。 远 程 模式 不 显示 调试 信息 ,这 也 是 它 被 认为 是 生产 模式 的 原因 。 然 而 ,在 一 台 
独 的 开发 机 器 上 建立 Storm 集群 是 可 能 的 ,并 且 它 被 认为 是 在 部 署 至 生产 前 的 一 个 好 方 
法 ,可 以 确保 在 生产 环境 中 运行 topology 时 没有 任何 问题 。 


10.2.3 示例 : 单词 计数 


在 这 个 工程 中 ,会 建立 一 个 简单 的 topology 来 为 单词 计数 。 可 以 把 这 个 工程 认为 是 
storm topologies 的 “hello world”。 然 而 , 它 是 一 个 非常 强大 的 topology, 因 为 它 只 需要 做 
一 些小 的 改动 便 可 以 扩展 到 几乎 无 限 规 模 , 甚 至 可 以 用 它 来 做 一 个 统计 系统 。 例 如 ,可 以 修 





改 这 个 项 目 来 找 出 Twitter 上 的 话题 趋势 。 
为 了 建立 这 个 topology, 将 使 用 一 个 Spout 来 负责 读 取 单 词 ,第 一 个 Bolt 来 标准 化 单 
词 ,第 二 个 Bolt 来 为 单词 计数 ,正如 可 以 在 图 10-3 中 看 到 的 那样 。 























[mb ox Getting Started Topology | 
i 
! | 
\_{ Word Reader Word Normalizer Word Counter | ! 
ὶ (spout) (bolt) (bolt) ] 
| | 
Word Storage | ] 
(plain text file) —————  o——————EÉ 4 
图 10-3 单词 计算 流程 
1. 创建 工程 


为 开始 这 个 工程 , 先 建 立 一 个 用 来 存放 应 用 的 文件 夹 (就 像 对 任何 的 Java 应 用 一 样 )， 
该 文件 夹 包含 工程 的 源 代码 。 接 着 需要 下 载 Storm 的 依赖 包 , 一 个 将 添加 到 应 用 类 路 径 的 
jar 包 的 集合 。 可 以 用 两 种 方式 中 的 一 种 做 这 件 事 。 

(1) 下 载 依 赖 包 ,解压 ,添加 到 类 路 径 。 

(2) 使 用 Apache Maven。 

Maven 是 一 套 软件 工程 管理 工具 ,可 以 用 来 管理 软件 开发 周期 中 的 多 个 方面 ,从 依赖 
到 发 布 构建 过 程 。 在 本 书 中 会 广泛 地 使 用 它 。 为 验证 是 否 已 安装 了 Maven, 运行 命 令 
mvn。 如 果 没 有 ,可 以 从 http://maven. apache. org/download. html 下 载 。 尽 管 使 用 storm 
没有 必要 成 为 一 个 Maven 下 载 ,但 是 知道 Maven 是 怎样 工作 的 基础 知识 是 有 帮助 的 。 可 
以 找到 更 多 信息 在 Apache Maven 的 网 站 (http://maven. apache. org/)。 

为 了 定义 工程 的 结构 ,需要 建立 一 个 pom. xml( 工 程 对 象 模型 ) 文 件 , 该 文件 描述 依赖 、 
包 、 源 码 等 。 将 使 用 依赖 包 及 nathanmarz 建立 的 Maven 库 (https: //github. com/ nathanmarz/ ) 。 
这 些 依赖 可 以 在 这 里 找到 (https://github. com/nathanmarz/storm/wiki/Maven), Storm 
的 Maven 依赖 包 引 用 了 在 本 地 模式 运行 Storm 所 需 的 所 有 库 函 数 。 

使 用 这 些 依赖 包 , 可 以 写 一 个 包含 运行 topology 的 必要 组 件 的 pom. xml 文件 。 


<projectxmlns= "http: //maven.apache.org/POM/4.0.0" 
xmlns:xsi- "http://www.w3.org/2001/XMLSchema- instance" 
xsi:schemaLocation- "http: //maven.apache .org/POM/4.0.0 
http://maven.apache .org/xsd/maven- 4.0.0.xsd"> 
<modelVersion> 4.0.0« /modelVersion> 

<groupId> storm.book< /groupId> 

<artifactId> Getting- Started< /artifactId> 

<version> 0.0.1- SNAPSHOT< /version> 

<build> 

<plugins> 

<plugin> 

<groupId> org.apache.maven.plugins« /groupId> 
<artifactId> maven- compiler- plugin« /artifactId> 





«version» 2.3.2« /version» 
«configuration» 
< source» 1.6< /source» 
«target» 1.6« /target> 
<compilerVersion> 1.6< /compilerVersion> 
</configuration> 
</plugin> 
« /plugins» 
< /build» 
<repositories> 
«!--Repository where we can found the storm dependencies- - > 
«repository» 
«id» clojars.org< /id> 
«url» http://clojars.org/repo< /url» 
< /repository» 
< /repositories» 
< dependencies» 
«!-- Storm Dependency- - > 
<dependency> 
<groupId> storm< /groupId> 
<artifactId> storm /artifactId> 
«version» 0.6.0< /version> 

I </dependency> 
< /dependencies> 
< /project» 


前 几 行 指定 了 工程 的 名 字 和 版 本 ,然后 添加 一 个 编译 器 择 our-application-folder/ 
件 ,该 插件 Maven 告诉 人 们 的 代码 应 该 用 Java 1. 6 编译 。 接 [ponam 


下 来 定义 库 (Maven 支持 同一 工程 的 多 个 库 )。Clojars 是 [一 main 
Storm 依赖 包 所 在 的 库 , Maven 会 自动 下 载 本 地 模式 运行 uai" 
Storm 所 需 的 所 有 子 依赖 包 。 bole 


resources 


典型 的 Maven Java 工程 如 图 10-4 所 示 。 

Java 下 的 文件 夹 包含 源 代 码 并 且 将 单词 文件 放 到 
resources 文件 夹 中 处 理 。mkdir -p 建立 所 有 所 需 的 父 目 录 。 

2. 建立 第 一 个 topology 

为 建立 第 一 个 topology, 要 创建 运行 单词 计数 的 所 有 的 类 。 或 许 示 例 的 一 些 部 分 在 目 
前 不 是 很 清晰 ,将 在 后 边 的 章节 中 解释 它们 。 

WordReader Spout 是 实现 了 IRichSpout 接口 的 类 。WordReader 负责 读 文件 并 且 将 
每 行 提供 给 一 个 Bolt. 

一 个 Spout 发 射 一 个 定义 的 域 的 列表 。 这 个 架构 允许 有 多 种 Bolt 读 取 相 同 的 Spout 
流 ,然后 这 些 Bolt 定义 域 供 其 他 的 Bolt 消费 等 。 

下 面 示例 包含 这 个 类 的 完整 代码 (在 示例 后 分 析 代 码 的 每 个 部 分 ) 。 


package spouts; 


图 10-4 典型 的 工程 树 





import java.io.BufferedReader; 
import java.io.FileNotFoundException; 
import java.io.FileReader; 
import java.util.Map; 
import backtype.storm.spout.SpoutOutputCollector; 
import backtype.storm.task.TopologyContext; 
import backtype.storm.topology.IRichSpout; 
import backtype.storm.topology.OutputFieldsDeclarer; 
import backtype.storm.tuple.Fields; 
import backtype.storm.tuple.Values; 
public class WordReaderimplementsIRichSpout { 
private SpoutOutputCollector collector; 
private FileReader fileReader; 
private booleancompleted- false; 
private TopologyContext context; 
public booleanisDistributed () (returnfalse; 
} 
public voidack (Object msgId) { 
System.out.println("OK:"+ msgId); 
} 
public voidclose () {} 
public voidfail (Object msgId) { 
System.out.println("FAIL:"4 msgId); 
} 
/** 
* The only thing that the methods will do It is emit each 
* fileline 
ba 
public voidnextTuple() { 
/** 
* The nextuple it is called forever, so if we have beenreaded the file 
* wewill wait and then return 
ιά 
if (completed) { 
try { 
Thread.sleep (1000) ; 
} catch (InterruptedExceptione) ( 
//Do nothing 
} 
return; 
} 
String str; 
//Open the reader 
BufferedReader reader- newBufferedReader (fileReader) ; 
try{ 
//Read all lines 
while ((str=reader.readLine()) !=null) { 
J** 
* Byeach line emmit a new value with the line as a their 
πώ 





this.collector.emit (newValues (str),str); 


} 
}catch (Exception e) { 
throw new RuntimeException ("Errorreading tuple",e); 
}finally{ 
completed=true; 
} 
} 


/** 
* We will create the file and get the collector object 
*f 
public voidopen (Map conf, TopologyContextcontext, 
SpoutOutputCollector collector) ( 
try { 
this.context- context; 
this.fileReader- newFileReader (conf .get ("wordsFile") .toString()); 
) catch(FileNotFoundExceptione) ( 
throw new RuntimeException ("Errorreading file 
["* conf.get ("wordFile")+ "]"); 
} 
this.collector- collector; 


} 
/κκ 


* Declare the output field "word" 
κά 
public voiddeclareOutputFields (OutputFieldsDeclarerdeclarer) { 
declarer.declare (newFields ("line")); 
} 
1 


在 任何 Spout 中 都 调用 的 第 一 个 方法 是 void open ( Map conf. TopologyContext 
context. SpoutOutputCollector collector) 。 此 方法 的 参数 是 TopologyContext, 它 包含 所 有 
的 topology 数据 。conf 对 象 在 topology 定义 时 被 创建 。SpoutOutputCollector 可 以 发 射 
将 被 Bolt 处 理 的 数据 。 下 面 的 代码 是 open 方法 的 实现 。 


public voidopen (Map conf, TopologyContext context, 
SpoutOutputCollector collector) ( 
try { 
this.context- context; 
this.fileReader- newFileReader (conf .get ("wordsFile") .toString()); 
} catch(FileNotFoundException e) { 
throw new RuntimeException ("Error reading file ["+ conf.get ("wordFile")+ "]"); 
) 
this.collector- collector; 
} 


在 这 个 方法 中 ,也 创建 了 reader, 它 负责 读 文件 。 接 着 需要 实现 public void nextTuple O . 
在 这 个 方法 里 可 以 发 射 将 被 Bolt 处 理 的 值 。 在 此 例子 中 ,这 个 方法 读 文件 并 且 每 行 发 射 一 
个 值 。 


public voidnextTuple () ( 
if (completed) { 
try { 
Thread.sleep(1); 
} catch (InterruptedException e) { 
//Do nothing 
} 
return; 
} 
String str; 
BufferedReader reader- newBufferedReader (fileReader); 
tryt 
while((str-reader.readLine ())!-null)( 
this.collector.emit (newValues (str)); 
) 
}catch (Exception e) { 
throw new RuntimeException ("Errorreading tuple",e); 
}finally{ 
completed- true; 
) 
) 
Values 是 ArrayList 的 一 个 实现 ,其 中 把 list 的 元 素 传 到 了 构造 方法 中 。 
nextTuple() 方 法 在 相同 的 循环 中 ,被 周期 性 地 调用 ,如 ack() 和 fail ) 方 法 。 当 没有 工 
作 要 做 时 ,必须 释放 对 线程 的 控制 ,这 样 其 他 的 方法 有 机 会 被 调用 ,所 以 nextTuple 方法 的 
第 一 行 是 检查 处 理 是 否 完成 了 。 如 果 已 经 完成 ,在 返回 前 它 会 休眠 至 少 lms 来 降低 处 理 器 
的 负载 。 如 果 有 工作 要 做 ,那么 文件 的 每 一 行 被 读 取 为 一 个 值 并 且 发 射 。 
元 组 (Tuple) 是 一 个 值 的 命名 列表 , 它 可 以 是 任何 类 型 的 Java 对 象 (只 要 这 个 对 象 是 可 
序列 化 的 )。Storm 在 默认 情况 下 可 以 序列 化 常用 的 类 ,例如 strings, bytearrays, ArrayList, 
HashMap 和 HashSet, 


10.3 _ Storm 并 发 机 制 


Storm 允许 计算 水 平 扩展 到 多 台 机 器 ,将 计算 划分 为 多 个 独立 的 任务 在 集群 上 并 行 执 
行 。 在 Storm 中 ,任务 只 是 在 集群 中 运行 的 一 个 Spout 的 Bolt 实例 。 

理解 并 行 性 是 如 何 工作 的 ,必须 首先 解释 一 个 Storm 集群 拓扑 参与 执行 的 四 个 主要 
组 件 。 

A) Nodes( 服 务 器 ): 这 些 只 是 配置 为 Storm 集群 参与 执行 拓扑 的 部 分 机 器 。Storm 
集群 包含 一 个 或 多 个 节点 来 完成 工作 。 

(2) Workers(JVM 虚拟 机 ): 这 些 是 在 一 个 节点 上 运行 独立 的 JVM 进程 。 每 个 节点 
配置 一 个 或 更 多 运行 的 Worker。 一 个 拓扑 可 以 请 求 一 个 或 更 多 的 Worker 分 配给 它 。 

(3) Executors( 线 程 ): 这 些 是 Worker 运行 在 JVM 进程 中 的 一 个 Java RE. BME 
务 可 以 分 配给 一 个 Executor。 除 非 显 式 重 写 ,Storm 将 分 配 一 个 任务 给 一 个 Executor. 

(4) Tasks(Spout/Bolt 实例 ): 任务 是 Spout 和 Bolt 的 实例 ,在 Executor 线程 中 运行 
nextTuple() 和 execute() 方 法 。 


10.3.1 topology 并 发 机 制 


到 目前 为 止 ,在 单词 计数 的 例子 中 ,还 没有 显 式 地 使 用 任何 Storm 的 并 行 API; 相反 ， 
允许 Storm 使 用 其 默认 设置 。 在 大 多 数 情况 下 ,除非 覆盖 ,Storm 将 默认 使 用 最 大 并 行 性 
设置 。 

在 改变 拓扑 结构 的 并 行 设置 之 前 , 先 考 虑 拓扑 在 默认 设置 下 是 如 何 执行 的 。 假 设 有 一 
台 机 器 (节点 ) ,指定 一 个 Worker 的 拓扑 ,并 允许 Storm 每 一 个 任务 以 一 个 Executor 执行 ， 
执行 指定 的 拓扑 ,如 图 10-5 所 示 。 





| Task Task N 
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| Spout) A Count Bolt) 

















图 10-5 Worker 执行 流程 


正如 可 以 看 到 的 ,并 行 性 只 有 线程 级 别 。 每 个 任务 运行 在 一 个 JVM 的 一 个 单独 的 线 
程 内 。 怎 样 才能 利用 手头 的 硬件 更 有 效 地 提高 并 行 性 ? 让 我 们 开始 通过 增加 Worker 和 
Executor 的 数量 来 运行 拓扑 。 


10.3.2 给 topology 增加 Worker 


分 配额 外 的 Worker 是 增加 拓扑 计算 能 力 的 一 种 简单 方法 ,Storm 提供 了 通过 其 API 
或 纯粹 配置 来 更 改 这 两 种 方式 。 无 论 选 择 哪 一 种 方法 ,组 件 上 Spout 和 Bolt 都 没有 改变 ， 
并 且 可 以 重复 使 用 。 

在 以 前 版 本 的 字数 统计 拓扑 中 ,介绍 了 配置 对 象 ,在 部 署 时 传递 到 submitTopology O 
方法 ,但 它 基 本 上 未 使 用 。 增 加 分 配给 一 个 拓扑 中 Worker 的 数量 ,只 是 调用 Config 对 象 的 
setNumWorkers() 方 法 。 

Config config-new Config(); 

config.setNumWorkers (2); 

这 个 分 配 两 个 Worker 的 拓扑 结构 并 不 是 默认 的 。 这 将 计算 资源 添加 到 拓扑 中 ,为 了 
有 效 地 利用 这 些 资源 ,也 会 想 调整 Executors 的 数量 和 拓扑 每 个 Executor 的 task 数量 。 


10.3.3 配置 Executor 和 task 


默认 情况 下 ,在 一 个 拓扑 定义 时 Storm 为 每 个 组 件 创建 一 个 单一 的 任务 ,为 每 个 任务 
分 配 一 个 Executor. Storm 的 并 行 API 提供 了 修改 这 种 行为 的 方式 ,允许 设置 的 每 个 任务 





的 Executor 数 和 每 个 Executor 的 task 数量 。 

当 定 义 一 个 流 分 组 并 行 性 时 ,Executor 的 数量 分 配 到 一 个 给 定 的 组 件 是 通过 修改 配置 
完成 的 。 为 了 说 明 这 个 特性 ,修改 拓扑 SentenceSpout 并 行 度 分 配 两 个 任务 ,每 个 任务 分 配 
自己 的 Executor 线程 。 


builder.setSpout (SENTENCE SPOUT ID, spout, 2); 


如 果 使 用 一 个 Worker, 拓 扑 的 执行 如 图 10-6 Bros 


Task .. Task Task 
ους 
Spout) Bolt) Count Bolt) Bolt) 


Task 
(Sentence 
Spout) 














10-6 ”修改 配置 后 的 Worker 执行 流程 


接 下 来 ,将 设置 分 割 句子 Bolt 为 两 个 有 四 个 task 的 Executor 执行 。 每 个 Executor 线 
程 将 被 指派 两 个 任务 执行 (4/2=2) 。 并 且 还 将 配置 字数 统计 Bolt 运行 四 个 任务 ,每 个 都 有 
自己 的 执行 线程 。 


builder.setBolt(SPLIT BOLT ID, splitBolt, 2).setNumTasks (4) 
-ShuffleGrouping (SENTENCE SPOUT ID); 

builder.setBolt(COUNT BOLT ID, countBolt, 4) 
-fieldsGrouping(SPLIT BOLT ID, newFields ("word") ); 


有 两 个 Worker, 拓 扑 的 执行 如 图 10-7 所 示 。 
拓扑 结构 的 并 行 性 增加 ,运行 更 新 的 WordCountTopology 类 为 每 个 单词 产生 更 高 的 总 
数量 。 


--- FINAL COUNTS--- 
a: 2126 

ate : 2722 
beverages : 2723 
cold : 2723 

cow : 2726 





Task 
(Sentence 
Spout) 


Task 
(Sentence 
Spout) 











图 10-7 2) Bolt 后 的 Worker 执行 流程 


dog : 5445 
don't : 5444 
fleas : 5451 
has : 2723 
have : 2722 
homework : 2722 
i: 8175 

like : 5449 
man : 2722 

my : 5445 

the : 2727 
think : 2722 


因为 Spout 无 限 发 出 数据 ,直到 topology 被 kil ,实际 的 数量 将 取决 于 计算 机 的 速度 和 
其 他 什么 进程 运行 它 ,但 是 应 该 看 到 一 个 总 体 增 加 的 发 射 和 处 理 数 量 。 

需要 指出 的 是 ,增加 Worker 的 数量 并 不 会 影响 一 个 拓扑 在 本 地 模式 下 运行 。 一 个 拓 
扑 在 本 地 模式 下 运行 总 是 运行 在 一 个 单独 的 JVM 进程 内 ,所 以 只 有 任务 和 Executor 并 行 
设置 才 会 有 影响 。Storm 的 本 地 模式 提供 一 个 近似 的 集群 行为 , 它 在 测试 一 个 真正 的 应 用 
程序 集群 生产 环境 之 前 对 开发 是 很 有 用 的 。 


104 数据 流 分 组 的 理解 


看 了 前 面 的 例子 ,可 能 会 不 明白 为 什么 没有 增加 ReportBolt 的 并 发 度 。 答案 是 ,这 样 
做 没有 任何 意义 。 为 了 理解 其 中 的 原因 ,需要 了 解 Storm 中 数据 流 分 组 的 概念 。 

数据 流 分 组 定义 了 一 个 数据 流 中 的 tuple 如 何 分 发 给 topology 中 不 同 Bolt 的 task。 举 
例 说 明 ,在 并 发 版 本 的 单词 计数 topology 中 ,SplitSentenceBolt 类 指派 了 四 个 task。 数 据 流 
分 组 决定 了 指定 的 一 个 tuple 会 分 发 到 哪个 task E. 

Storm 定义 了 七 种 内 置 数据 流 分 组 的 方式 。 

(1) Shuffle grouping( 随 机 分 组 ): 这 种 方式 会 随机 分 发 tuple 给 Bolt 的 各 个 task. 18 
个 bolt 实例 会 接收 到 相同 数量 的 tuple。 

(2) Fields grouping( 按 字段 分 组 ): 根据 指定 字段 的 值 进行 分 组 。 例 如 ,一 个 数据 流 根 
据 word 字段 进行 分 组 ,所 有 具有 相同 word 字段 值 的 tuple 会 路 由 到 同一 个 Bolt 的 
task 中 。 

(3) All grouping( 全 复制 分 组 ): 将 所 有 的 tuple 复制 后 分 发 给 所 有 Bolt task。 每 个 订 
阅 数 据 流 的 task 都 会 接收 到 tuple 的 复制 。 

(Ὁ Globle grouping( 全 局 分 组 ) : 这 种 分 组 方式 将 所 有 的 tuples 路 由 到 唯一 一 个 task 
E. Storm 按照 最 小 的 task ID 来 选取 接收 数据 的 task。 注 意 , 当 使 用 全 局 分 组 方式 时 , 设 
置 Bolt 的 task 并 发 度 是 没有 意义 的 ,因为 所 有 tuple 都 转发 到 同一 个 task 上 。 使 用 全 局 分 
组 时 需要 注意 ,因为 所 有 的 tuple 都 转发 到 一 个 JVM 实例 上 ,可 能 会 引起 Storm 集群 中 某 
个 JVM 或 者 服务 器 出 现 性 能 瓶颈 或 崩溃 。 

(5) None grouping( 不 分 组 ) : 在 功能 上 和 随机 分 组 相同 ,是 为 将 来 预 留 的 。 

(6) Direct grouping( 指 向 型 分 组 ) : 数据 源 会 调用 emitDirect ) 方 法 来 判断 一 个 tuple 
应 该 由 哪个 Storm 组 件 来 接收 。 只 能 在 声明 为 指向 型 的 数据 流 上 使 用 。 

(7) Local or shuffle grouping( 本 地 或 随机 分 组 ): 和 随机 分 组 类 似 , 但 是 ,会 将 tuple 分 
发 给 同一 个 Worker 内 的 Bolt task( 如 果 Worker 内 有 接收 数据 的 Bolt task)。 其 他 情况 下 ， 
采用 随机 分 组 的 方式 。 取 决 于 topology 的 并 发 度 ,本 地 或 随机 分 组 可 以 减少 网 络 传输 ,从 
而 提高 topology 的 性 能 。 

除了 预定 义 的 分 组 方式 之 外 ,还 可 以 通过 实现 CustomStreamGrouping( 自 定义 分 组 ) 接 
口 来 自 定义 分 组 方式 。 

public interface CustomStreamGrouping extends Serializable{ 


void prepare (WorkerTopologyContext context, 
GlobalStreamId stream,list« Integer» targetTasks); 





List«Integer» chooseTasks (int taskId,list« Object» values); 


} 


prepare() 方 法 在 运行 时 调用 ,用 来 初始 化 分 组 信息 ,分 组 的 具体 实现 会 使 用 这 些 信息 
决定 如 何 向 接收 task 分 发 tuple。WorkerTopologyContext 对 象 提供 了 topology 的 上 下 文 
信息 ,GlobalStreamId 提供 了 待 分 组 数据 流 的 属性 。 最 有 用 的 参数 是 targetTasks, 是 分 组 
所 有 待 选 task 的 标识 符 列表 。 通 常 ,会 将 targetTasks 的 引用 存在 变量 里 作为 chooseTasks O 
的 参数 。 
chooseTasks() 方 法 返回 一 个 tuple 发 送 目 标 task 的 标识 符 列表 , 它 的 两 个 参数 是 发 送 
tuple 的 组 件 的 id 和 tuple 的 值 。 
为 了 说 明 数 据 流 分 组 的 重要 性 ,在 topology 中 引入 一 个 漏洞 (bug)。 首 先 , 修 改 
SentenceSpout 的 nextTuple() 方 法 ,使 每 个 句子 只 发 送 一 次 。 
public void nextTuple () ( 
If (index« sentence.length) ( 
This.collector.emit (new Values (sentence[ index])); 
Index+ +; 
} 
Utils.waitForMillis (1); 
} 


程序 的 输出 如 下 。 


将 CountBolt 中 按 字段 分 组 的 方式 修改 为 随机 分 组 方式 。 


builder,setBolt(COUNT BOLT ID,countBolt, 4) 
.ShuffleGrouping(SPLIT BOLT ID); 


运行 程序 的 结果 如 下 。 


---FINAL COUNTS--- 


mE 

Ate : 2 

Beverages : 1 

Cold : 1 

Cow : 2 

Dog : 2 

Don't : 1 

Fleas : 1 

Has : 1 

Have : 1 

Homework : 1 

Le 

Like : 1 

Man : 1 

My: 1 

The : 1 

Think : 1 

结果 是 错误 的 ,因为 CountBolt 的 参数 是 和 状态 相关 的 , 它 会 对 收 到 的 每 个 单词 进行 计 
数 。 这 个 例子 中 ,在 并 发 状况 下 ,计算 的 准确 度 取决 于 是 否 按照 tuple 的 内 容 进行 适当 的 分 
组 。 引 入 的 bug 只 会 在 CountBolt 并 发 实例 超过 一 个 时 出 现 。 这 也 是 为 什么 一 再 强调 “要 
在 不 同 的 并 发 度 配 置 下 测试 topology” 的 原因 。 

通常 ,需要 避免 将 信息 存在 Bolt 中 ,因为 Bolt 执行 异常 或 者 重新 指派 时 ,数据 会 丢失 。 
一 种 解决 方法 是 定期 对 存储 的 信息 快照 并 放 在 持久 性 存储 中 ,比如 数据 库 。 这 样 ,如 果 task 
被 重新 指派 就 可 以 恢复 数据 。 


10.5 消息 的 可 靠 处 理 


依旧 以 单词 计数 为 例 ,topology 从 一 个 队列 中 读 取 句子 ,然后 将 句子 分 解 成 若干 个 单 
词 ,再 将 每 个 单词 和 该 单词 的 数量 发 送出 去 。 这 种 情况 下 .从 Spout 中 发 送出 去 的 tuple 就 
会 产生 很 多 基于 它 创 建 的 新 tuple, 包 括 句子 中 单词 的 tuple 和 每 个 单词 的 个 数 的 tuple。 这 


些 消息 构成 了 消息 树 , 如 图 10-8 所 示 。 

—-C ["hbase"] -- ['hbase".1] J 
— ["spark"] Ἔ-( ['spark".1] Ὗ 
---( ['storm"] -- ['storm".1] ) 
em] κο ορ 
=| ['zookeeper"] }—~({"zookeeper.}) 
-一人 (ao (C ['hadoop".1] 3 


图 10-8 消息 树 
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如 果 这 棵 tuple 树 发 送 完成 ,并 且 树 中 的 每 一 条 消息 都 得 到 了 正确 的 处 理 , 则 表明 发 送 
tuple 的 Spout 已 经 得 到 了 “完整 性 处 理 ”。 对 应 地 ,如 果 在 指定 的 超时 时 间 内 tuple 树 中 有 
消息 没有 完成 处 理 , 就 意味 着 tuple 失败 了 。 这 个 超时 时 间 可 以 使 用 Config. TOPOLOGY_ 
MESSAGE_TIMEOUT_SECS 参数 在 构造 topology 时 进行 配置 ,如 果 不 配置 , 则 默认 时 间 
为 30s。 


10.5.1 消息 被 处 理 后 会 发 生 什么 


为 了 理解 这 个 问题 ,必须 先 了 解 一 下 tuple 的 生命 周期 。 下 面 是 定义 Spout 的 接口 (可 
以 在 Javadoc 中 查看 更 多 细节 信息 ) 。 


public interface ISpout extends Serializable { 
void open (Map varl, TopologyContext var2, SpoutOutputCollector var3); 
void close(); 
void activate(); 
void deactivate () ; 
void nextTuple() ; 
void ack (Object varl); 
void fail(Object varl); 
) 


首先 ,通过 调用 Spout 的 nextTuple 方法 ,Storm 向 Spout 请 求 一 个 tuple, Spout 会 使 
用 open 方法 中 提供 的 SpoutOutputCollector 向 它 的 一 个 输出 数据 流 中 发 送 一 个 tuple。 在 
发 送 tuple Rf , Spout 会 提供 一 个 “消息 id”, 这 个 id 会 在 后 续 过 程 中 用 于 识别 tuples 

使 用 Storm 的 可 靠 性 机 制 时 需要 注意 两 件 事 : 首先 ,在 tuple 树 中 创建 新 节点 连接 时 务 
必 通 知 Storm; 其 次 ,在 每 个 tuple 处 理 结 束 时 也 必须 向 Storm 发 出 通知 。 通 过 这 两 个 操 
作 ,Storm 就 能 够 检测 到 tuple 树 会 在 何 时 完成 处 理 ,并 适时 地 调用 ack 或 者 fail 方法 。 
Storm 的 API 提供 了 一 种 非常 精确 的 方式 来 实现 这 两 个 操作 。 

因此 SentenceSpout 需要 做 如 下 修改 ,在 nextTuple 方法 中 ,发 送 tuple 时 ,增加 一 个 
msgld; 如 果 返 回 确认 成 功 , 则 调用 ack 方法 ,把 执行 成 功 的 msgId 从 缓存 中 移 除 , 如 果 超 时 
或 者 异常 ,再 调用 fail 方 法 进行 重 试 。 具 体 实现 如 下 。 


public class SentenceSpout extends BaseRichSpout{ 
private static final Logger logger = 
LoggerFactory.getLogger (SentenceSpout .class); 
/** 
* tuple 发 射 器 
μαι 
private SpoutOutputCollector collector; 
private static final String| ] SENTENCES = { 
"hadoop yarn mapreduce spark", 
"flume hadoop hive spark", 
"oozie yarn spark storm", 
"storm yarn mapreduce error", 
"error flume storm spark" 
1; 
// 把 已 发 送 的 tuple 缓 存 到 Map 中 ,key 就 是 msgId 





private Map< Object,Values> hasSendTuples; 
// 如 果 tuple 在 后 续 处 理 中 出 现 异 常 时 ,我 们 需要 采取 一 些 措施 ,这 里 我 们 采用 重 试 
// 因 此 ,把 需要 重 试 的 tuple 缓存 下 来 ,key 为 msgid 
private Μαρς Object, Integer> ^ hasRetries; 
// 设 置 需 要 重 试 的 最 大 次 数 
private int maxRt; 
[** 
* 用 来 声明 该 组 件 向 后 面 组 件 发 射 的 tuple 的 key 名 称 依次 是 什么 
* @param declarer 
ay 
@ override 
public void declareOutputFields (OutputFieldsDeclarer declarer) { 
declarer.declare (new Fields ("sentence") ); 
} 
& Override 
public Μαρς String, Object» getComponentConfiguration() { 
// 用 于 指定 只 针对 本 组 件 的 一 些 特殊 配置 
return null; 
f 
/** 
* Spout 组 件 的 初始 化 方法 
* 创建 sentencespout 组 件 的 实例 对 象 时 调用 .只 执行 一 次 
* @param conf 
* @param context 
* (param collector 
ἈΝ 
&Override 
public void open (Map conf, TopologyContext context, SpoutOutputCollector collector) { 
// 用 实例 变量 来 接收 tuple 发 射 器 
this.collector = collector; 
this.hasSendTuples = new HashMap<> (); 
this.hasRetries = new HashMap<> (); 
// 获 取 配 置 的 最 大 重 试 次 数 
Object maxRetryTimes = conf.get ("MAX RETRY TIMES"); 
maxRt = Integer.valueOf (maxRetryTimes.toString()); 
H 
@override 
public void close() { 
// 收 尾 工 作 
} 
@override 
public void activate() { 
} 
@ Override 
public void deactivate () { 
} 
/** 
* Spout 组 件 的 核心 方法 
* 循环 调用 
* (1 如 何 从 数据 源 上 获取 数据 逻辑 , 写 在 该 方法 中 
* (2) 对 获取 的 数据 进行 一 些 简单 的 处 理 





public void nextTuple() ( 
// 随 机 从 数组 中 获取 一 条 语句 (模拟 从 数据 源 中 获取 数据 ) 
String sentence = SENTENCES| new Random() .nextInt (SENTENCES.length)]; 
if (sentence.contains ("error"))( 
logger.error ("记录 有 问题 : "+ sentence); 
Jelset 
// 封 装 成 tuple 
//this.collector.emit (new Values (sentence)); 
Object msgId = new Object () ; 
// 引 启用 消息 可 靠 性 保障 机 制 : Spout 中 给 每 个 tuple 一 个 msgId 来 标识 
Values tuple = new Values (sentence); 
this.collector.emit (tuple, msgId); 
//b) 添 加 到 内 存 缓存 起 来 
this.hasSendTuples.put (msgId, tuple ) 7 
} 
f 
@ Override 
public void ack (Object msgId) { 
// 表 示 后 面 的 组 件 对 tuple 处 理 完 ,并 确认 成 功 后 ,调用 该 方法 
// 从 内 存 中 将 处 理 成 功 的 去 掉 
logger.info("Tuple:"+ msgId + ", 被 成 功 处 理 …"); 
System.err.println("Tuple:"4 msgId + ", 被 成 功 处 理 …"); 
if (hasSendTuples.containsKey (msgId) ) ( 
// 把 成 功 处 理 的 msgId 移 除 
hasSendTuples.remove (msgId) ; 
} 
} 
@ Override 
public void fail (Object msgId) { 
// 后 面 组 件 接收 tuple 超时 ,后 面 组 件 没有 接收 到 ,或 者 明确 确认 失败 ,调用 该 方法 
// 比 如 : 重 试 最 大 重 试 次 数 
logger.info("Tuple:" + msgId + ", 处 理 失 败 或 者 发 射 超时 …"); 
System.err.println("Tuple:" + msgid + ", 处 理 失 败 或 者 发 射 超时 …"); 
if(!hasSendTuples.containsKey (msgId) ) { 
return; 
} 
int hasRetry - 0; 
if (hasRetries .containsKey (msgId))( 
hasRetry = hasRetries.get (msgId) ; 
} 
if (hasRetry <maxRt) { 
// 重 试 
this.collector.emit (hasSendTuples.get (msgId) ,msgId) ; 
hasRetry ++; 
hasRetries.put (msgId, hasRetry) ; 
Jelse{ 
// 超 过 了 最 大 重 试 次 数 则 直接 丢弃 
this.hasRetries.remove (msgId); 





this.hasSendTuples.remove (msgId) ; 


tuple 会 被 发 送 到 对 应 的 Bolt 中 ,在 这 个 过 程 中 ,Storm 会 很 小 心地 跟踪 创建 的 消息 树 。 
如 果 Storm 检测 到 某 个 tuple 被 完整 处 理 ,Storm 会 根据 Spout 提供 的 msgld 调用 最 初 发 
送 tuple 的 Spout 任务 的 ack 方法 。 对 应 地 ,Storm 在 检测 到 tuple 超时 之 后 就 会 调用 fail 
方法 。 注 意 ,对 于 一 个 特定 的 tuple, 响 应 (ack) 和 失败 处 理 (fail) 都 只 会 由 最 初创 建 这 个 


tuple 的 任务 执行 。 也 就 是 说 ,即使 Spout 在 集群 中 有 很 多 个 任务 , 某 个 特定 的 tuple 也 只 会 
由 创建 它 的 那个 任务 ,而 不 是 其 他 的 任务 ,来 处 理 成 功 或 失败 的 结果 。 


SplitBolt 接收 到 来 自 SentenceSpout 发 送 的 tuple 后 ,开始 进行 处 理 , 并 且 在 处 理 完毕 ， 
需要 给 SentenceSpout 发 送 确认 信息 。 主 要 修改 execute 方法 ,并 进行 锚 定 (anchoring ) 。 


public class SplitBolt implements IRichBolt( 
/** 
* bolt 组 件 中 发 射 器 
xy 
private OutputCollector collector; 
/** 


* bolt 组 件 的 初始 化 方法 


* 
* @param stormConf 
* Q param context 
* Q param collector 
Ef 
@ Override 
public void prepare (Map stormConf, TopologyContext context, OutputCollector collector) { 
this.collector = collector; 
} 


[te 


* 每 接收 到 前 面 组 件 发 送 过 来 的 tuple 就 调用 一 次 


* bolt 对 数据 处 理 逻 辑 写 在 该 方法 中 
* 处 理 完 后 的 数据 封装 成 tuple (value 部 分 ) ,继续 发 送 给 后 面 的 组 件 
* 或 者 执行 比如 写 到 数据 库 、 打 印 到 文件 等 操作 (终点 ) 
* @param input 
ae 
@ override 
public void execute (Tuple input) { 
try { 
String sentence = input.getStringByField ("sentence") ; 
if (sentence != null && !"".equals (sentence)) { 
String| ] words = sentence.split(" "); 
for (String word : words) { 
//this.collector.emit (new Values (word)); 
// 错 定 tuple, fi tuple 的 某 个 分 组 


this.collector.emit (input, new Values (word)); 
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ł 
// 处 理 接收 到 的 tuple 之 后 ,记得 发 送 确认 成 功 信息 
this.collector.ack (input); 
}catch (Exception e) { 
// 处 理 失败 ,发 送 确认 失败 信息 
this.collector. fail (input) ; 
} 
H 
@ Override 
public void cleanup() { 
} 
@ Override 
public void declareOutputFields (OutputFieldsDeclarer declarer) { 
declarer.declare (new Fields ("word") ); 
} 
@ Override 
public Map< String, Object> getComponentConfiguration() { 
return null; 
} 
} 


通过 将 输入 tuple 指定 为 emit 方法 的 第 一 个 参数 ,每 个 单词 tuple 都 被 “ 锚 定 "了 。 这 
样 , 如 果 单 词 tuple 在 后 续 处 理 过 程 中 失败 了 ,作为 这 棵 tuple 树 的 根 节点 的 原始 Spout 
tuple 就 会 被 重新 处 理 。 相 应 地 ,如 果 这 样 发 送 tuple: 


this.collector.emit ( new Values (word) ) ; 


就 称 为 “ 非 锚 定 ”。 在 这 种 情况 下 ,下 游 的 tuple 处 理 失 败 不 会 触发 原始 tuple 的 任何 处 理 操 
作 。 有 了 时候 发 送 这 种 “ 非 铺 定 ”tuple 也 是 必要 的 ,这 取决 于 topology 的 容错 性 要 求 。 

一 个 输出 tuple 可 以 被 锚 定 到 多 个 输入 tuple 上 ,这 在 流 式 连接 或 者 聚合 操作 时 很 有 
用 。 显 然 , 一 个 多 锚 定 的 tuple 失败 会 导致 Spout 中 多 个 tuple 的 重新 处 理 。 多 锚 定 操作 是 
通过 指定 一 个 tuple 列表 而 不 是 单一 的 tuple 来 实现 的 .如 下 面 的 例子 所 示 。 

List<Tuple> anchors = new ArrayList< Tuple> (); 

anchors .add (tuplel); 

anchors .add (tuple2) ; 

this.collector.emit (anchors, new Values (1, 2, 3)); 

多 锚 定 操作 会 把 输出 tuple 添加 到 多 个 tuple 树 中 。 注 意 ,多 锚 (8) 
定 也 可 能 会 打破 树 的 结构 从 而 创建 一 个 tuple 的 有 向 无 环 图 
(DAG) ,如 图 10-9 所 示 。 L πο 

锚 定 其 实 可 以 看 作 将 tuple MAR 1b hI it Ρὲ — FEAR — PR © 
tuple 树 中 一 个 单独 tuple 的 处 理 时 ,后 续 以 及 最 终 的 tuple 都 会 在 ”图 10-9 有 向 无 环 图 
Storm 可 靠 性 API 的 作用 下 得 到 标定 。 这 是 通过 OutputCollector 的 ack 
和 fail 方法 实现 的 。 如 果 再 回 过 头 看 一 下 SplitSentence 的 例子 ,就 会 发 现 输入 tuple 是 在 
所 有 的 单词 tuple 发 送出 去 之 后 被 ack( 应 答 ) 的 。 

可 以 使 用 OutputCollector 的 fail 方法 来 使 位 于 tuple 树 根 节 点 的 Spout tuple 立即 失 


效 。 例 如 ,应 用 可 以 在 建立 数据 库 连接 时 抓 取 异 常 ,并 且 在 异常 出 现时 立即 让 输入 tuple 
失效 。 通 过 这 种 立即 失效 的 方式 ,原始 Spout tuple 就 会 比 等 待 tuple 超时 的 方式 响应 
更 快 。 

每 个 待 处 理 的 tuple 都 必须 显 式 地 应 答 (ack) 或 者 失效 (fail)。 因 为 Storm 是 使 用 内 存 
来 跟踪 每 个 tuple 的 ,所 以 ,如 果 没 有 对 每 个 tuple 进行 应 答 或 者 失效 ,那么 负责 跟踪 的 任务 
很 快 就 会 发 生 内 存 溢出 。 

Bolt 处 理 tuple 的 一 种 通用 模式 是 在 Execute 方法 中 读 取 输 入 tuple, 发 送出 基于 输入 
tuple 的 新 tuple, 然 后 在 方法 末尾 对 tuple 进行 应 答 。 大 部 分 Bolt 都 会 使 用 这 样 的 过 程 。 
这 些 Bolt 大 多 属于 过 滤器 或 者 简单 的 处 理 函 数 。Storm 有 一 个 可 以 简化 这 种 操作 的 简便 
接口 , 称 为 BasicBolt。 例 如 ,如 果 使 用 BasicBolt.SplitSentence 的 例子 可 以 这 样 写 , 





public class SplitSentence extends BaseBasicBolt ( 
public void execute (Tuple tuple, BasicOutputCollector collector) { 
try { 
String sentence = tuple.getStringByField ("sentence"); 
if (sentence != null && !"".equals (sentence)) { 
String| | words = sentence.split(" "); 
for (String word : words) ( 
this.collector.emit (new Values (word)); 
) 
} 
}eatch (Exception e) { 
// 处 理 失败 ,发送 确认 失败 消息 
this.collector.fail(tuple); 
) 


} 

这 个 实现 方式 比 之 前 的 方式 要 简单 许多 ,而 且 在 语义 上 有 着 完全 一 致 的 效果 。 发 送 到 
BasicOutputCollector 的 tuple 会 被 自动 锚 定 到 输入 tuple 上 ,而且 输 入 tuple 会 在 Execute 
方法 结束 时 自动 应 答 。 

相应 地 ,执行 聚合 或 者 联结 操作 的 Bolt 可 能 需要 延迟 应 答 tuple, 因 为 它 需要 等 待 一 批 
tuple 来 完成 某 种 结果 计算 。 聚 合 和 联结 操作 一 般 需 要 对 它们 的 输出 tuple 进行 多 锚 定 。 
这 个 过 程 已 经 超出 了 IBasicBolt 的 应 用 范围 。 


10.5.2 Storm 可 靠 性 的 实现 方法 


Storm 的 topology 有 一 些 特殊 的 称 为 acker 的 任务 .这 些 任务 负责 跟踪 每 个 Spout 发 
出 的 tuple 的 DAG。 当 一 个 acker 发 现 一 个 DAG 结束 了 , 它 就 会 给 创建 Spout tuple 的 
Spout 任务 发 送 一 条 消息 ,让 这 个 任务 来 应 答 这 个 消息 。 可 以 使 用 Config; TOPOLOGY_ 
ACKERS 来 配置 topology 的 acker 数量 。Storm 默认 会 将 acker 的 数量 设置 为 1, 如 果 有 大 
量 消 息 的 处 理 需求 , 则 可 能 需要 增加 这 个 数量 。 

理解 Storm 的 可 靠 性 实现 的 最 好 方式 还 是 通过 了 解 tuple 和 tuple DAG 的 生命 周期 。 
当 一 个 tuple 在 topology 中 被 创建 出 来 时 不 管 是 在 Spout 中 还 是 在 Bolt 中 创建 的 一 一 
这 个 tuple 都 会 被 配置 一 个 随机 的 64 位 id。acker 就 是 使 用 这 些 id 来 跟踪 每 个 Spout tuple 
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的 tuple DAG 的 。 

Spout tuple 的 tuple 树 中 的 每 个 tuple 都 知道 Spout tuple 的 id。 当 向 Bolt 中 发 送 一 个 
新 tuple 时 ,输入 tuple 中 的 所 有 Spout tuple 的 id 都 会 被 复制 到 新 的 tuple 中 。 在 tuple 被 
ack 时 , 它 会 通过 回 掉 函数 向 合适 的 acker 发 送 一 条 消息 ,这 条 消息 显示 了 tuple 树 中 发 生 的 
变化 。 也 就 是 说 , 它 会 告诉 acker 这 样 一 条 消息 :“ 在 这 个 tuple 树 中 ,我 的 处 理 已 经 结束 
了 , 接 下 来 这 个 就 是 被 我 标记 的 新 tuple.” 

以 图 10-10 为 例 ,如 果 D tuple ΤΠ E tuple 都 是 由 C tuple 创建 的 ,那么 在 C 应 答 时 tuple 
树 就 会 发 生变 化 。 








图 10-10 应答 引起 的 树 变化 


由 于 在 D 和 下 添加 到 tuple 树 中 时 C 已 经 从 树 中 移 除了 ,所 以 这 个 树 并 不 会 被 过 早 地 
结束 。 

关于 Storm 如 何 跟踪 tuple 树 还 有 更 多 的 细节 。 正 如 上 面 所 提 到 的 ,可 以 随意 设置 
topology 中 acker 的 数量 。 这 就 会 引起 下 面 的 问题 : 当 tuple 在 topology 中 被 ack 时 , 它 是 
怎么 知道 向 哪个 acker 任务 发 送信 息 呢 ? 

对 于 这 个 问题 ,Storm 实际 上 是 使 用 哈 希 算法 来 将 Spout tuple 匹配 到 acker 任务 上 。 
由 于 每 个 tuple 都 会 包含 原始 的 Spout tuple id, 所 以 它们 会 知道 需要 与 哪个 acker 任务 
通信 。 

关于 Storm 的 另 一 个 问题 是 : acker 是 如 何 知道 它 所 跟踪 的 Spout tuple 是 由 哪个 
Spout 任务 处 理 呢 ? 实际 上 ,在 Spout 任务 发 送 新 tuple 时 , 它 也 会 给 对 应 的 acker 发 送 一 条 
消息 ,告诉 acker 这 个 Spout tuple 是 与 它 的 任务 id 相关 联 的 。 随 后 ,在 acker 观察 到 tuple 
树 结束 处 理 时 , 它 就 会 知道 向 哪个 Spout 任务 发 送 结束 消息 。 

acker 实际 上 并 不 会 直接 跟踪 tuple 树 。 对 于 一 棵 包含 数 万 个 tuple 节点 的 树 , 如 果 直 
接 跟踪 其 中 的 每 个 tuple, 显 然 会 很 快 把 这 个 acker 的 内 存 撑 爆 。 因 此 ,这 里 acker 使 用 一 个 
特殊 的 策略 来 实现 跟踪 的 功能 ,使 用 这 个 方法 对 每 个 Spout tuple 只 需要 占用 固定 的 内 存 空 
间 ( 大 约 20 字 节 )。 这 个 跟踪 算法 是 Storm 运行 的 关键 ,也 是 Storm 的 一 个 突破 性 技术 。 

在 acker 任务 中 储存 了 一 个 表 , 用 于 将 Spout tuple 的 id 和 一 对 值 相映 射 。 其 中 第 一 个 
值 是 创建 这 个 tuple 的 任务 id, 这 个 id 主要 用 于 在 后 续 操作 中 发 送 结束 消息 。 第 二 个 值 是 
一 个 64 位 的 数字 , 称 为 应 答 值 (ack val) 。 这 个 应 答 值 是 整个 tuple 树 的 一 个 完整 的 状态 表 
述 ,而 且 它 与 树 的 大 小 无 关 。 因 为 这 个 值 仅 仅 是 这 棵 树 中 所 有 被 创建 或 者 被 应 答 的 tuple 
的 tuple id 进行 异 或 运算 的 结果 值 。 

当 一 个 acker 任务 观察 到 应 答 值 变 为 0 时 , 它 就 知道 这 个 tuple 树 已 经 完成 处 理 了 。 因 
A tuple id 实际 上 是 随机 生成 的 64 位 数值 ,所 以 应 答 值 碰巧 为 0 是 一 种 极 小 概率 的 事件 。 
理论 计算 得 出 ,在 每 秒 应 答 一 万 次 的 情况 下 ,需要 5000 万 年 才 会 发 生 一 次 错误 。 即 使 是 这 


样 ,也 仅仅 会 是 tuple 碰巧 在 topology 中 失败 时 才 会 发 生 数 据 丢失 的 情况 。 

假设 已 经 理解 了 这 个 可 靠 性 算法 ,再 分 析 一 下 所 有 失败 的 情形 ,看 看 这 些 情 形 下 Storm 
是 如 何 避 免 数据 缺失 的 。 

由 于 任务 (线程 ) 挂 掉 导 致 tuple 没有 被 应 答 (ack) 的 情况 ,这 时 位 于 tuple 树 根 节点 的 
Spout tuple 会 在 任务 超时 后 得 到 重新 处 理 。 

acker 任务 挂 掉 的 情形 ,这 种 情况 下 acker 跟踪 的 所 有 Spout tuple 都 会 由 于 超时 被 重 
新 处 理 。 

Spout 任务 挂 掉 的 情形 ,这 种 情况 下 Spout 任务 的 来 源 就 会 负责 重新 处 理 消息 。 例 如 ， 
对 于 像 Kestrel 和 RabbitMQ 这 样 的 消息 队列 ,会 在 客户 端 断 开 连接 时 将 所 有 的 挂 起 状态 
的 消息 放 回 队列 (关于 挂 起 状态 的 概念 可 以 参考 Storm 的 容错 性 ) 。 

综 上 所 述 ,Storm 的 可 靠 性 机 制 完 全 具备 了 分 布 的 .可 伸缩 的 、 容 错 的 特征 。 


10.5.3 调整 可 靠 性 


由 于 acker 任务 是 轻 量 级 的 ,在 拓扑 中 并 不 需要 很 多 acker 任务 。 可 以 通过 Storm UI 
监控 它们 的 性 能 (acker 任务 的 id 为 _acker)。 如 果 发 现 观察 结果 存在 问题 , 则 需要 增加 更 
多 的 acker 任务 。 

如 果 不 关注 消息 的 可 靠 性 ,也 就 是 说 ,不 关心 在 失败 情形 下 发 生 的 tuple 丢失 ,那么 可 
以 通过 不 跟踪 tuple 树 的 处 理 来 提升 拓扑 的 性 能 。 由 于 tuple 树 中 的 每 个 tuple 都 会 带 有 一 
个 应 答 消息 ,不 追踪 tuple 树 会 使 传输 的 消息 的 数量 减 半 。 同 时 ,下 游 数 据 流 中 的 id 也 会 变 
少 ,这 样 可 以 降低 网 络 带宽 的 消耗 。 

有 三 种 方法 可 以 移 除 Storm 的 可 靠 性 机 制 。 

第 一 种 方法 是 将 Config. TOPOLOGY_ACKERS 设置 为 0, 在 这 种 情况 下 ,Storm 会 在 
Spout 发 送 tuple 之 后 立即 调用 ack 方法 .tuple 树叶 就 不 会 被 跟踪 了 。 

第 二 种 方法 是 基于 消息 本 身 移 除 可 靠 性 。 可 以 通过 在 SpoutOutputCollector. emit 方 
法 中 省 略 msgId 来 关闭 Spout tuple 的 跟踪 功能 。 

最 后 ,如 果 不 关心 拓扑 中 的 下 游 tuple 是 否 会 失败 ,可 以 在 发 送 tuple 时 选择 发 送 非 锚 
定 的 (unanchored)tuple。 由 于 这 些 tuple 不 会 被 标记 到 任何 一 个 Spout tuple 中 ,显然 在 它 
们 处 理 失败 时 不 会 引起 任何 Spout tuple 的 重新 处 理 (注意 ,在 使 用 这 种 方法 时 ,如 果 上 游 有 
Spout 或 bolt 仍然 保持 可 靠 性 机 制 , 那 么 需要 在 Execute 方法 之 初 调用 OutputCollector. 
ack 来 立即 响应 上 游 的 消息 ,否则 上 游 组 件 会 误 认 为 消息 没有 发 送 成 功 ,导致 所 有 的 消息 会 
被 反复 发 送 ) 。 





本 章 小 结 


在 本 章 中 ,在 没有 安装 和 搭建 Storm 集群 的 情况 下 ,使 用 Storm 的 核心 API 建立 了 一 
个 简单 的 单词 计数 程序 ,并 以 此 程序 为 例 介 绍 了 Storm 特性 中 的 大 部 分 内 容 。 尽 管 Storm 
的 本 地 模式 已 经 足够 强大 ,但 是 要 感受 Storm 的 真正 威力 ,还 需要 把 Storm 部 署 到 集群 中 。 

第 11 章 将 会 对 如 何 安 装 和 搭建 Storm 集群 进行 介绍 ,以 及 如 何 将 topology 部 署 到 分 
布 式 环境 中 。 
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COD Storm 是 什么 ,应 用 场景 有 哪些 ? 

(2) Storm 有 什么 特点 ? 

(3) Spout 发 出 的 消息 后 续 可 能 会 触发 产生 成 千 上 万 条 消息 ,Storm 如 何 跟踪 这 条 消息 
树 呢 ? 

(4) Storm 本 地 模式 的 作用 是 什么 ? 


配置 Storm 集群 


11.1 Storm 集群 框架 介绍 


Storm 集群 遵循 主 / 从 (master/slave) 结 构 , 和 Hadoop 等 分 布 式 计算 技术 类 似 , 语 义 上 
稍 有 不 同 。 主 /从 结构 中 ,通常 有 一 个 配置 中 静态 指定 或 运行 时 动态 选举 出 的 主 节点 。 
Storm 使 用 前 一 种 实现 方式 。 

Storm 集群 由 一 个 主 节点 ( 称 为 nimbus) 和 一 个 或 者 多 个 工作 节点 ( 称 为 supervisor) 组 
成 。 在 nimbus 和 supervisor 节点 之 外 ,Storm 还 需要 一 个 Apache Zookeeper 的 实例 ， 
Zookeeper 实例 本 身 可 以 由 一 个 或 者 多 个 节点 组 成 ,如 图 11-1 所 示 o 
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图 11-1 Storm 集群 的 框架 


nimbus 和 supervisor 都 是 Storm 提供 的 后 台 守 护 进程 ,可 以 共存 在 同一 台 机 器 上 。 实 
际 上 ,可 以 建立 一 个 单 节点 伪 集 群 , 把 nimbus, supervisor 和 Zookeeper 进程 都 运行 在 同一 
台 机 器 上 。 





11.1.1 理解 nimbus 守护 进程 


nimbus 守护 进程 的 主要 职责 是 管理 ,协调 和 监控 在 集群 上 运行 的 topology, 包 括 topology 
的 发 布 、 任 务 指派 ,以 及 在 事件 处 理 失败 时 重新 指派 任务 。 
将 topology 发 布 到 Strom 集群 ,将 预先 打包 成 jar 文件 的 topology 和 配置 信息 提交 


大 数据 
(QD uiskH ΠΠ 


(submitting) 到 nimbus 服务 器 上 。 一 旦 nimbus 接收 到 了 topology 的 压缩 包 , 会 将 jar 包 分 
发 到 足够 数量 的 supervisor 节点 上 。 当 supervisor 节点 接收 到 了 topology 压缩 文件 后 ， 
nimbus 就 会 指派 task (Bolt 和 Spout 实例 ) 到 每 个 supervisor, 并且 发 送信 号 指示 
supervisor 生成 足够 的 Worker 来 执行 指派 的 task。 

nimbus 记录 所 有 supervisor 节点 的 状态 和 分 配给 它们 的 task. MER nimbus 发 现 某 个 
supervisor 没有 上 报 心跳 或 者 已 经 不 可 达 , 它 会 将 故障 supervisor 分 配 的 task 重新 分 配 到 
集群 中 的 其 他 supervisor 节点 。 

前 面 提 到 过 ,严格 意义 上 讲 nimbus 不 会 引起 单 点 故障 。 这 个 特性 是 因为 nimbus 并 不 
参与 topology 的 数据 处 理 过 程 , 它 仅仅 是 管理 topology 的 初始 化 、 任 务 分 发 和 进行 监控 。 
实际 上 ,如 果 nimbus 守护 进程 在 topology 运行 时 停止 了 ,只 要 分 配 的 supervisor 和 
Worker 健康 运行 ,topology 一 直 继 续 数据 处 理 。 需 要 注意 的 是 ,在 nimbus 已 经 停止 的 情 
况 下 supervisor 会 异常 终止 ,因为 没有 nimbus 守护 进程 来 重新 指派 失败 这 个 终止 的 
supervisor 的 任务 ,数据 处 理 就 会 失败 。 


11.1.2 supervisor 守护 进程 的 工作 方式 


supervisor 守护 进程 等 待 nimbus 分 配 任务 后 生成 并 监控 Workers(JVM 进程 ) 执 行 任 
务 。supervisor 和 Worker 都 是 运行 在 不 同 的 JVM 进程 上 ,如 果 由 supervisor 拉 起 的 一 个 
Worker 进程 因为 错误 (或 者 因为 UNIX 终端 的 kill-9 命令 , Windows 的 tskkill 命令 强制 结 
oR) ΠΕ WB H . supervisor 守护 进程 会 尝试 重新 生成 新 的 Worker 进程 。 

看 到 这 里 读者 可 能 想 知 道 Storm 的 有 保障 传输 机 制 如 何 适应 其 容错 模型 。 如 果 一 个 
Worker 其 至 整个 supervisor 节点 都 故障 了 .Storm 如 何 保障 出 错时 正在 处 理 的 tuples 的 
传输 ? 

答案 就 在 Storm 的 tuple 锚 定 和 应 答 确认 机 制 中 。 当 打开 了 可 靠 传输 的 选项 ,传输 到 
故障 节点 上 的 tuples 将 不 会 收 到 应 答 确认 ,Sponut 会 因为 超时 而 重新 发 射 原始 tuple, i FF 
的 过 程 会 一 直 重 复 ,直到 topology 从 故障 中 恢复 开始 正常 处 理 数据 。 


11.1.3 DRPC 服务 工作 机 制 


Storm 应 用 中 的 一 个 常见 模式 期 望 将 Storm 的 并 发 性 和 分 布 式 计算 能 力 应 用 到 “请 
求 一 响应 ”范式 中 。 一 个 客户 端 进程 或 者 应 用 提交 了 一 个 请 求 并 同步 地 等 待 响 应 。 这 样 的 
范式 可 能 看 起 来 和 典型 topology 的 高 异步 性 .长 时 间 运 行 的 特点 恰恰 相反 ,Storm 具有 事 
务 处 理 的 特性 来 实现 这 种 应 用 场景 ,如 图 11-2 所 示 。 

客户 端 给 DRPC 服务 器 发 送 要 执行 的 方法 的 名 字 , 以 及 这 个 方法 的 参数 ,实现 这 个 函 
数 的 topology 使 用 DRPCSpout 从 DRPC 服务 器 接收 函数 调用 流 。 每 个 函数 调用 被 DRPC 
服务 器 标记 了 一 个 唯一 的 id。 

然后 这 个 topology 计算 结果 ,在 topology 的 最 后 一 个 叫 作 ReturnResults 的 Bolt 会 连 
接 到 DRPC 服务 器 ,并 且 把 这 个 调用 的 结果 发 送 给 DRPC 服务 器 (通过 那个 唯一 的 id 标 
WO. DRPC 服务 器 用 那个 唯一 id 与 等 待 的 客户 端 匹 配 上 ,唤醒 这 个 客户 端 并 且 把 结果 发 
送 给 它 。 
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图 11-2 DRPC 的 工作 流 机 制 














11.1.4 Storm 的 UI 简介 


Storm UI 是 可 选 功能 ,该 功能 可 提供 一 个 基于 Web 的 GUI 来 监控 Storm 集群 ,对 正 
在 运行 的 topology 有 一 定 的 管理 功能 。Storm UI 提供 了 已 经 发 布 的 topology 的 统计 信 
息 , 对 监控 Storm 集群 的 运转 和 topology 的 功能 有 很 大 帮助 ,如 图 11-3 所 示 。 





Storm UI 


Cluster Summary 


Nimbus Summary 
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图 11-3 Storm UI 


Storm UI 只 能 报告 由 nimubs 的 trhift API 获取 的 信息 ,不 会 影响 topology 上 其 他 功 
fÉ. Storm UI 可 以 随时 开关 而 不 影响 任何 topology 的 运行 ,在 那里 它 完全 是 无 状态 的 。 它 
还 可 以 用 配置 来 进行 一 些 简 单 的 管理 ,如 开启 .停止 .暂停 和 重新 均衡 负载 topology. 


1.2 在 Linux 上 安装 Storm 


这 一 节 将 详细 描述 如 何在 Linux 上 搭建 一 个 Storm 集群 。 请 依次 完成 以 下 安装 步 又。 
(D 搭建 Zookeeper 集群 。 


(2) 安装 Storm 依赖 库 。 





(3) 下 载 并 解压 Storm 发 布 版 本 。 
(4) 修改 storm. yaml 配置 文件 。 
(5) 启动 Storm 各 个 后 台 进 程 。 


11.2.1 搭建 Zookeeper 集群 
由 于 在 前 面 Zookeeper 部 分 已 有 相关 介绍 ,此 处 不 再 熬 述 。 
11.2.2 安装 Storm 依赖 库 


接 下 来 ,需要 在 Nimbus 和 supervisor 机 器 上 安装 Storm 的 依赖 库 ,具体 如 下 。 

(1) ZeroMQ 2. 1. 7 GA 44581 2. 1. 10 版 本 ,因为 该 版 本 的 一 些 严重 bug 会 导致 Storm 
集群 运行 时 出 现 奇 怪 的 问题 。 少 数 用 户 在 2. 1. 7 版 本 会 遇 到 IllegalArgumentException 的 
异常 ,此 时 降 为 2. 1.4 版 本 可 修复 这 一 问题 ) 。 

(2) ΙΖΜΩ. 

(3) Java 6. 

(4) Python 2. 6.6, 

(5) Unzip. 

1, 安装 ZeroMQ 2.1.7 

下 载 后 编译 安装 ZeroMQ.. 


wget http://download.zeromq.org/zeromq- 2.1.7.tar.gz 
tar -xzf zeromq-2.1.7.tar.gz 

cd zeromq- 2.1.7 

-/configure 

make 

sudo make install 


如 果 安 装 过 程 报错 uuid 找 不 到 , 则 通过 如 下 的 包 安装 uuid 库 。 


sudo yum install e2fsprogsl -b current 

sudo yum install e2fsprogs- devel -b current 
2. & € ΙΖΜΟ 

git clone https: //github.com/nathanmarz/jzmq.git 
cd jzmq 

./autogen.sh 

-/configure 

make 

sudo make install 

3. 安装 Python 2.6.6 

CD FA Python 2.6.6. 


wget http: //www.python.org/ftp/python/2.6.6/Python- 2.6.6.tar.bz2 
(2) 编译 安装 Python 2.6.6. 


tar -jxvf Python-2.6.6.tar.bz2 


cd Python- 2.6.6 
-/configure 
make 

make install 


(3) 测试 Python 2.6.6. 


$ python -V 
Python 2.6.6 


4. 安装 Unzip 
(1) 如 果 使 用 RedHat 系列 Linux 系统 ,执行 以 下 命令 安装 Unzip. 
apt-get install unzip 


(2) 如 果 使 用 Debian 系列 Linux 系统 ,执行 以 下 命令 安装 Unzip. 


yum install unzip 


11.2.3. 下 载 并 解压 Storm 发 布 版 本 


下 一 步 , 需 要 在 Nimbus 和 supervisor 机 器 上 安装 Storm 发 行 版 本 。 
(1) 下 载 Storm 发 行 版 本 ,推荐 使 用 Storm 0. 8. 1 。 


wget https://github.com/downloads/nathanmarz/storm/storm- 0.8.1.zip 
(2) 解压 到 安装 目录 下 。 


unzip storm- 0.8.1.zip 


11.2.4 修改 storm. yaml 配置 文件 


Storm 发 行 版 本 解压 目录 下 有 一 个 conf/storm. yaml 文件 ,用 于 配置 Storm, conf/ 
storm. yaml 中 的 配置 选项 将 覆盖 defaults. yaml 中 的 默认 配置 。 以 下 选项 必须 在 conf/ 
storm, yaml 中 进行 配置 。 

(1) storm. zookeeper. servers: Storm 集群 使 用 的 Zookeeper 集群 地 址 ,其 格式 如 下 。 

storm.zookeeper.servers: 

τ "111.222.333.444" 
- "555.666.777.888" 

如 果 Zookeeper 集群 使 用 的 不 是 默认 端口 ,那么 还 需要 storm. zookeeper. port 选项 。 

(2) storm. local. dir: Nimbus 和 Supervisor 进程 用 于 存储 少量 状态 ,如 jars confs 等 
的 本 地 磁盘 目录 ,需要 提前 创建 该 目录 并 给 予 足够 的 访问 权限 ,然后 在 storm. yaml 中 配置 
该 目录 。 


storm.local.dir:"/home/admin/storm/workdir" 


(3) java. library. path: Storm 使 用 的 本 地 库 (ZeroMQ 和 JZMQ) 加 载 路 径 ,默认 
为 "/usr/local/lib: /opt/local/lib: /usr/lib". 一 般 来 说 ZeroMQ 和 JZMQ 默认 安装 在 
/usr/local/lib 下 ,因此 不 需要 配置 。 
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(4) nimbus. host; Storm 集群 Nimbus 机 器 地 址 .各 个 supervisor 工作 节点 需要 知道 哪 
个 机 器 是 Nimbus, 以 便 下 载 Topologies 的 jars .confs 等 文件 。 


nimbus.host:"111.222.333.444" 


(5) supervisor. slots. ports: 对 于 每 个 supervisor 工作 节点 ,需要 配置 该 工作 节点 可 以 
运行 的 Worker 数量 。 每 个 Worker 占用 一 个 单独 的 端口 用 于 接收 消息 ,该 配置 选项 用 于 定 
义 哪些 端口 是 可 被 Worker 使 用 的 。 默 认 情 况 下 ,每 个 节点 上 可 运行 4 个 Workers, 分 别 在 
6700,6701,6702 和 6703 端口 。 

supervisor.slots.ports: 

- 6700 
- 6701 


- 6702 
- 6703 


11.2.5 启动 Storm 后 台 进 程 


最 后 一 步 , 启 动 Storm 的 所 有 后 台 进 程 。 和 Zookeeper 一 样 Storm 也 是 快速 失败 (fail- 
fast) 的 系统 ,这 样 Storm 才能 在 任意 时 刻 被 停止 ,并 且 当 进程 重启 后 被 正确 地 恢复 执行 。 
这 也 是 为 什么 Storm 不 在 进程 内 保存 状态 的 原因 ,即使 Nimbus 或 supervisors 被 重启 «i5 
行 中 的 topologies 不 会 受到 影响 。 

以 下 是 启动 Storm 各 个 后 台 进 程 的 方式 。 

(1) Nimbus: 在 Storm 主 控 节 点 上 运行 "bin/storm nimbus >/dev/null 2 > 8.1 &." 启 
动 Nimbus 后 台 程 序 , 并 放 到 后 台 执行 。 

(2) supervisor: 在 Storm 各 个 工作 节点 上 运行 "bin/storm supervisor >/dev/null 2 > 
&.1 &" 启 动 supervisor 后 台 程 序 , 并 放 到 后 台 执行 。 

(3) UI; 在 Storm 主 控 节点 上 运行 "bin/storm ui >/dev/null 2» 8.1 8."]3 2} UIRE 
程序 ,并 放 到 后 台 执 行 。 启 动 后 可 以 通过 http://{nimbus host}: 8080 观察 集群 的 Worker 
资源 使 用 情况 ,topologies 的 运行 状态 等 信息 。 

注意 : 

(D Storm 后 台 进 程 被 启动 后 ,将 在 Storm 安装 部 署 目录 下 的 logs/ 子 目录 下 生成 各 个 
进程 的 日 志文 件 。 

© 经 测试 ,Storm UI 必须 和 Storm nimbus 部 署 在 同一 台 机 器 上 ,否则 UI 无 法 正常 工 
作 , 因 为 UI 进程 会 检查 本 机 是 否 存 在 nimbus 链接 。 

图 为 了 方便 使 用 ,可 以 将 Bin/Storm 加 入 系统 环境 变量 中 。 

至 此 ,Storm 集群 已 经 部 署 .配置 完毕 ,可 以 向 集群 提交 拓扑 运行 。 


11.3 18 topology 提交 到 集群 上 


向 集群 提交 任务 分 为 以 下 几 步 。 
(1) 启动 Storm topology。 





storm jar allmycode.jar org.me.MyTopology argl arg2 arg3 


其 中 ,allmycode. jar 是 包含 topology 实现 代码 的 jar & org. me. MyTopology 的 main 
方法 是 topology {89 AH .argl,arg2 和 arg3 为 org. me. MyTopology 执行 时 需要 传 入 的 
参数 。 

(2) 停止 Storm topology。 


storm kill {toponame} 


JL, { toponame} JJ topology 提交 到 Storm 集群 时 指定 的 topology 任务 名 称 。 


本 章 小 结 


在 本 章 中 ,介绍 了 安装 和 配置 Storm 集群 的 必需 步骤 ,以 及 如 何 用 Storm 的 守护 进程 
和 命令 行 工具 来 管理 和 运行 topology。 

第 12 章 将 对 Trident 一 一 一 个 在 Storm 事务 处 理 和 状态 管理 基础 上 的 高 级 别 抽象 技术 
进行 介绍 。 
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CD 请 试 着 在 本 机 上 按照 本 章 介绍 的 方法 搭建 Storm 集群 。 

(2) Hadoop 的 MapReduce 与 Storm 的 topology 有 什么 不 一 样 的 地 方 ? 
(3) Nimbus 与 hadoop 的 jobtracer 作用 是 否 类 似 ? 

(4) Nimbus 和 supervisor 之 间 的 所 有 协调 工作 由 谁 来 完成 ? 

(5) 一 个 topology 由 哪 两 部 分 组 成 ? 

(6) Storm HA 模式 如 果 机 器 意外 停止 ,是 如 何 处 理 任务 的 ? 

(7) Storm 如 何 运 行 一 个 topology? 

(8) Spout 类 里 面 最 重要 的 方法 是 nextTuple, 它 的 作用 是 什么 ? 

(9) Storm 里 面 有 几 种 类 型 的 stream grouping, 分 别 是 什么 ? 

(10) 如 何 构 建 topology? 


Trident 和 Trident-ML 


12.1 Trident topology 


12.1.1 Trident 综述 


Trident 是 在 Storm 基础 上 ,一 个 以 实时 计算 为 目标 的 高 度 抽 象 。 它 在 提供 处 理 大 大 
吐 量 数据 能 力 (每 秒 百 万 次 消息 ) 的 同时 ,也 提供 了 低 延 时 分 布 式 查询 和 有 状态 流 式 处 理 的 
能 力 。 如 果 对 Pig 和 Cascading 这 种 高 级 批 处 理工 具 很 了 解 ,那么 应 该 很 容易 理解 Trident, 
因为 它们 之 间 很 多 的 概念 和 思想 都 是 类 似 的 。Trident 提供 了 joins、aggregations、 
grouping, functions 以 及 filters 等 能 力 。 除 此 之 外 ,Trident 还 提供 了 一 些 专门 的 原 语 ,从 而 
在 基于 数据 库 或 者 其 他 存储 的 前 提 下 来 应 付 有 状态 的 递增 式 处 理 。Trident 也 提供 一 致 性 
(consistent) ,有 且 仅 有 一 次 (exactly-once) 等 语义 ,使 我 们 在 使 用 Trident topology 时 变 得 
容易 。 

以 下 是 一 个 Trident 的 例子 。 在 这 个 例子 中 ,主要 完成 以 下 两 个 功能 。 

(1) 从 一 个 流 式 输入 中 读 取 语句 并 计算 每 个 单词 的 个 数 。 

(2) 提供 查询 给 定单 词 列表 中 每 个 单词 当前 总 数 的 功能 。 

这 里 举 一 个 例子 ,我 们 会 从 如 下 这 样 一 个 无 限 的 输入 流 中 读 取 语句 作为 输入 。 





FixedBatchSpout spout = new FixedBatchSpout (new Fields ("sentence"), 3, 
new Values ("the cow jumped over the moon"), 
new Values ("the man went to the store and bought some candy"), 
new Values ("four score and seven years ago"), 
new Values ("how many apples can you eat")); 
spout.setCycle (true); 


这 个 Spout 会 循环 输出 所 列 出 的 那些 语句 到 sentence stream 中 ,下 面 的 代码 会 以 这 个 
Stream 作为 输入 并 计算 每 个 单词 的 个 数 。 


TridentTopology topology = new TridentTopology (); 

TridentState wordCounts — topology.newStream("spoutl", spout) 

.each (new Fields ("sentence"), new Split(), new Fields ("word")) 

-groupBy (new Fields ("word")) 

.persistentAggregate (new MemoryMapState.Factory (),new Count (), new Fields ("count")) 
-parallelismHint (6) ; 


在 这 段 代码 中 ,首先 创建 了 一 个 TridentTopology 对 象 , 该 对 象 提供 了 相应 的 接口 去 构 





i Trident 计算 过 程 。TridentTopology 类 中 的 newStream 77 i M fij A i (input. source) 中 
读 取 数 据 , 并 创建 一 个 新 的 数据 流 。 在 这 个 例子 中 ,使 用 了 上 面 定义 的 FixedBatchSpout 对 
象 作 为 输入 源 。 输 入 数据 源 同 样 可 以 如 Kestrel 或 者 Kafka 这 样 的 队列 服务 。Trident 会 
在 Zookeeper 中 保存 一 小 部 分 状态 信息 来 追踪 数据 的 处 理 情况 ,而 在 代码 中 我 们 指定 的 字 
符 串 spoutl 就 是 Zookeeper 中 用 来 存储 状态 信息 的 Znode 节点 。 

Trident 在 处 理 输入 stream 时 会 把 输入 转换 成 batch( 包 含 若干 个 tuple) 来 处 理 。 例 
如 ,输入 的 sentence stream 可 能 会 被 拆 分 成 如 图 12-1 所 示 的 batch. 























the cow jumped over the moon the cow jumped over the moon 
the man went to the store and bought some candy the man went to the store and bought some candy 
four score and seven years ago four score and seven years ago 





how many apples can you eat 
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Batch 3 








图 12-1 batch 的 拆 分 


一 般 来 说 ,这 些小 的 batch 中 的 tuple 可 能 会 在 数 千 或 者 数 百 万 这 样 的 数量 级 ,这 完全 
取决 于 输入 的 吞吐 量 。 

Trident 提供 了 一 系列 非常 成 熟 的 批 处 理 API 来 处 理 这 些小 batch。 这 些 API 与 在 Pig 
或 者 Cascading 中 看 到 的 非常 类 似 , 可 以 做 groupby, join, aggregation. 执行 function 和 
filter 等 。 当 然 ,独立 处 理 每 个 小 的 batch 并 不 是 非常 有 趣 的 事情 ,所 以 Trident 提供 了 功能 
来 实现 batch 之 间 的 聚合 并 可 以 将 这 些 聚 合 的 结果 存储 到 内 存 .Memcached Cassandra 或 
者 一 些 其 他 的 存储 中 。 同 时 ,Trident 还 提供 了 非常 好 的 功能 来 查询 实时 状态 ,这 些 实时 状 
态 可 以 被 Trident 更 新 。 此 外 ,Trident 还 可 以 是 一 个 独立 的 状态 源 。 

这 个 例子 中 ,Spout 输出 了 一 个 只 有 单一 字段 sentence 的 数据 流 。 在 下 一 行 ,topology 
使 用 了 Split ei BOK DESY stream 中 的 每 一 个 tuple. Split 函数 读 取 输入 流 中 的 sentence ^£ 
段 ,并 将 其 拆 分 成 若干 个 word tuple。 每 一 个 sentence tuple 可 能 会 被 转换 成 多 个 word tuple. 
例如 ,the cow jumped over the moon 会 被 转换 成 6 个 word tuples。 下 面 是 Split 的 定义 。 

public class Split extends BaseFunction { 


public void execute (TridentTuple tuple, TridentCollector collector) ( 
String sentence = tuple.getString(0); 
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for (String word: sentence.split(" ")) ( 
collector.emit (new Values (word)); 


} 


) 


它 只 是 简单 地 根据 空格 拆 分 sentence, 并 将 拆 分 出 的 每 个 单词 作为 一 个 tuple 输出 。 

topology 的 其 他 部 分 计算 单词 的 个 数 , 并 将 计算 结果 保存 到 了 持久 存储 中 。 首 先 ， 
word stream 被 根据 word 字段 进行 group 操作 ,然后 每 一 个 group 使 用 Count 聚合 器 进行 
持久 化 聚合 。persistentAggregate 方法 会 帮助 用 户 把 一 个 状态 源 聚 合 的 结果 存储 或 者 更 新 
到 存储 中 。 在 这 个 例子 中 ,单词 的 数量 被 保持 在 内 存 中 ,不 过 可 以 简单 地 把 这 些 数据 保存 到 
其 他 的 存储 中 ,如 Memcached、Cassandra 等 。 如 果 要 把 结果 存储 到 Memcached 中 ,只 是 简 
单 地 使 用 下 面 这 句 话 替换 persistentAggregate 就 可 以 了 ,这 其 中 的 serverLocations 是 
Memcached cluster 的 主机 和 端口 号 列表 。 


-persistentAggregate (MemcachedState.transactional (serverLocations), 

new Count () , 

new Fields ("count") ) 

persistentAggregate 存储 的 数据 就 是 所 有 batch 聚合 的 结果 。 

Trident 非常 好 的 一 点 就 是 它 提供 完全 容错 的 (fully fault-tolerant) 处 理 一 次 且 仅 一 次 
(exactly-once) 的 语义 。 这 就 让 用 户 可 以 很 轻松 地 使 用 Trident 来 进行 实时 数据 处 理 。 
Trident 会 把 状态 以 某 种 形式 保持 起 来 , 当 有 错误 发 生 时 , 它 会 根据 需要 来 恢复 这 些 状态 。 

persistentAggregate 方法 会 把 数据 流转 换 成 一 个 TridentState 对 象 。 在 这 个 例子 中 ， 
TridentState 对 象 代表 了 所 有 单词 的 数量 。 会 使 用 这 个 TridentState 对 象 来 实现 在 计算 过 
程 中 的 分 布 式 查询 。 

上 面 的 是 topology 的 第 一 部 分 ,topology 的 第 二 部 分 实现 了 一 个 低 延 时 的 单词 数量 的 
分 布 式 查 询 。 这 个 查询 以 一 个 用 空格 分 隔 的 单词 列表 为 输入 ,返回 这 些 单词 的 总 个 数 。 这 
些 查 询 就 像 普通 的 RPC 调用 那样 被 执行 ,要 说 不 同 , 那 就 是 它们 在 后 台 是 并 行 执行 的 。 下 
面 是 执行 查询 的 一 个 例子 。 

DRPCClient client = new DRPCClient ("drpc.server.location", 3772); 

System.out.println(client.execute ("words", "cat dog the man"); 

//prints the JSON- encoded result, e.g.: "[[5078]]" 

由 此 可 见 ,除了 在 storm cluster. 上 并 行 执行 之 外 ,这 个 查询 看 上 去 就 是 一 个 普通 的 
RPC 调用 。 这 样 的 简单 查询 的 延 时 通常 在 10ms 左右 。 当 然 , 更 复杂 的 DRPC 调用 可 能 会 
占用 更 长 的 时 间 ,尽管 延 时 很 大 程度 上 取决 于 给 计算 分 配 了 多 少 资源 。 

topology 中 的 分 布 式 查询 部 分 实现 如 下 所 示 。 

topology.newDRPCStream ("words") 

.each (new Fields ("args"), new Split(), new Fields ("word") ) 
-groupBy (new Fields ("word") ) 
-StateQuery (wordCounts, new Fields ("word"), new MapGet (), new Fields ("count") ) 


-each (new Fields ("count"), new FilterNull ()) 
-aggregate (new Fields ("count"), new Sum(), new Fields ("sum")); 


使 用 TridentTopology 对 象 来 创建 DRPC stream ,并且 将 这 个 函数 命名 为 words, iX 
个 函数 名 会 作为 第 一 个 参数 在 使 用 DRPC Client 来 执行 查询 时 用 到 。 

每 个 DRPC 请 求 会 被 当 作 只 有 一 个 tuple 的 batch 来 处 理 。 在 处 理 的 过 程 中 ,以 这 个 输 
入 的 单一 tuple 来 表示 这 个 请 求 。 这 个 tuple 包含 一 个 叫 作 args 的 字段 ,在 这 个 字段 中 保存 
了 客户 端 提供 的 查询 参数 。 在 这 个 例子 中 ,这 个 参数 是 一 个 以 空格 分 隔 的 单词 列表 。 

首先 ,使 用 Split 函数 把 传人 的 请 求 参 数 拆 分 成 独立 的 单词 ,然后 对 word 流 进行 group 
by 操作 ,之 后 就 可 以 使 用 stateQuery 在 上 面 代码 中 创建 的 TridentState 对 象 上 进行 查询 。 
stateQuery 接收 一 个 state 源 ( 在 这 个 例子 中 ,就 是 topolgoy 所 计算 的 单词 的 个 数 ) 以 及 一 
个 用 于 查询 的 函数 作为 输入 。 在 这 个 例子 中 ,使 用 了 MapGet 函数 来 获取 每 个 单词 出 现 的 
个 数 。 由 于 DRPC stream 使 用 与 TridentState 完全 相同 的 group 方式 (按照 word 字段 进 
行 groupby) ,每 个 单词 的 查询 会 被 路 由 到 TridentState 对 象 管 理 和 更 新 这 个 单词 的 分 区 去 
执行 。 

接 下 来 ,用 FilterNull 过 滤器 把 从 未 出 现 过 的 单词 给 过 滤 掉 (说 明 没 有 查询 该 单词 ) ,并 
使 用 Sum 聚合 器 将 这 些 count 累加 起 来 得 到 结果 。 最 终 , Trident 会 自动 把 结果 发 送 回 等 
待 的 客户 端 。 

Trident 在 如 何 最 大 限度 地 保证 执行 topogloy 性 能 方面 是 非常 智能 的 。 在 topology 中 
会 自动 发 生 两 件 非常 有 意思 的 事情 。 

(1) 读 取 和 更 新 状态 的 操作 。 例 如 ,stateQuery 和 persistentAggregate 会 自动 地 批量 
处 理 。 如 果 当 前 处 理 的 batch 中 有 20 次 更 新 需要 被 同步 到 存储 中 ,Trident 会 自动 把 这 些 
操作 汇总 到 一 起 ,只 做 一 次 读 一 次 写 ,而 不 是 进行 20 次 读 20 次 写 的 操作 。 因 此 可 以 在 方便 
执行 计算 的 同时 ,保证 了 非常 好 的 性 能 。 

(2) Trident 的 聚合 器 已 经 是 被 优化 得 非常 好 。Trident 并 不 是 简单 地 把 一 个 group 中 
所 有 的 tuples 都 发 送 到 同一 个 机 器 上 面 进行 聚合 ,而 是 在 发 送 之 前 已 经 进行 过 一 次 部 分 的 
聚合 。 例 如 ,count 聚合 器 会 先 在 每 个 partition 上 面 进行 count, 然 后 把 每 个 分 片 count iE 
总 到 一 起 得 到 最 终 的 count。 这 个 技术 就 与 MapReduce 里 面 的 combiner 是 一 个 思想 。 

下 面 再 来 看 一 下 Trident 的 另外 一 个 例子 。 








12.1.2 Reach 


这 个 例子 是 一 个 纯粹 的 DRPC topology, 这 个 topology 会 计算 一 个 给 定 URL 的 reach 
值 ,reach 值 是 该 URL 对 应 页 面 的 推广 能够 送 达 (Reach) 的 用 户 数量 ,那么 就 把 这 个 数量 叫 
作 这 个 URL 的 reach。 要 计算 reach ,需要 获取 转发 过 这 个 推 文 的 所 有 人 ,然后 找到 所 有 转 
发 者 的 粉丝 ,并 将 这 些 粉 丝 去 重 , 最 后 得 到 去 重 后 的 用 户 的 数量 。 如 果 把 计算 reach 的 整个 
过 程 都 放 在 一 台 机 器 上 面 , 就 太 困 难 了 ,因为 需要 数 千 次 数据 库 调 用 以 及 千 万 级 别 数量 的 
tuple。 如 果 使 用 Storm 和 Trident ,就 可 以 把 这 些 计算 步骤 在 整个 cluster 中 并 行进 行 ( 具 体 
哪些 步骤 ,可 以 参考 DRPC 介绍 一 文 , 该 文 介绍 过 reach 值 的 计算 方法 ) 。 

这 个 topology 会 读 取 两 个 state 源 : 一 个 将 该 URL 映射 到 所 有 转发 该 推 文 的 用 户 列 
表 , 还 有 一 个 将 用 户 映射 到 该 用 户 的 粉丝 列表 。topology 的 定义 如 下 。 


TridentState urlToTweeters — 
topology.newStaticState (getUrlToTweetersState ()) ; 


TridentState tweetersToFollowers — 

topology.newStaticState (getTweeterToFollowersState ()) ; 

topology.newDRPCStream ("reach") 

-StateQuery (urlToTweeters,new Fields ("args") ,new MapGet () , new Fields ("tweeters")) 
.each (new Fields ("tweeters"), new ExpandList () new Fields ("tweeter")) 

-Shuffle() 

. StateQuery (tweetersToFollowers, new Fields ( " tweeter"), new MapGet (), new Fields 
("followers")) 

-parallelismHint (200) 

.each (new Fields ("followers"), new ExpandList (), new Fields ("follower")) 

-groupBy (new Fields ("follower")) 

-aggregate (new One () new Fields ("one") ) 

-parallelismHint (20) 

.aggregate (new Count (), new Fields ("reach") ); 


这 个 topology 使 用 newStaticState 方法 创建 了 TridentState 对 象 来 代表 一 个 外 部 数据 
库 。 使 用 这 个 TridentState 对 象 ,可 以 在 这 个 topology 上 面 进行 动态 查询 。 和 所 有 的 state 
源 一 样 ,在 这 些 数据 库 上 面 的 查找 会 自动 被 批量 执行 ,从 而 最 大 限度 地 提升 效率 。 

这 个 topology 的 定义 是 非常 简单 的 , 它 仅 是 一 个 批 处 理 的 任务 。 

首先 ,查询 urlToTweeters 数据 库 来 得 到 转发 过 这 个 URL 的 用 户 列表 。 这 个 查询 会 
返回 一 个 tweeter 列表 ,因此 使 用 ExpandList 函数 把 其 中 的 每 一 个 tweeter 转换 成 一 个 
tuple。 

接 下 来 ,我们 获取 每 个 tweeter 的 follower。 可 以 使 用 shuffle 把 要 处 理 的 tweeter 均匀 
地 分 配 到 toplology 运行 的 每 一 个 Worker 中 并 发 去 处 理 , 然 后 查询 tweetersToFollowers 
数据 库 , 从 而 得 到 每 个 转发 者 的 粉丝 。 可 以 看 到 ,我 们 为 topology 的 这 部 分 分 配 了 很 大 的 
并 行 度 , 因 为 这 部 分 是 整个 topology 中 最 耗资 源 的 。 

随后 ,对 这 些 粉 丝 进行 去 重 和 计数 。 这 分 为 如 下 两 步 : 四 通过 follower 字段 对 流 进行 
分 组 ,并 对 每 个 组 执行 One 聚合 器 。One 聚合 器 对 每 个 分 组 简单 地 发 送 一 个 tuple, 该 tuple 
仅 包含 一 个 数字 1。 回 将 这 些 1 加 到 一 起 ,得 到 去 重 后 的 粉丝 集中 的 粉丝 数 。One 聚合 器 
的 定义 如 下 。 


public class One implements CombinerAggregator« Integer> { 
public Integer init(TridentTuple tuple) { 
return 1; 


public Integer combine (Integer vall, Integer val2) ( 


return 1; 


public Integer zero() { 
return 1; 
) 


这 是 一 个 汇总 聚合 器 (combiner aggregator) , 它 会 在 传送 结果 到 其 他 Worker 汇总 之 前 
进行 局 部 汇总 ,从 而 使 性 能 最 优 。 同 样 ,Sum 被 定义 成 一 个 汇总 聚合 器 ,在 topology 的 最 后 





部 分 进行 全 局 求 和 是 高 效 的 。 
接 下 来 一 起 来 看 看 Trident 的 一 些 细节 。 


12.1.3 字段 和 元 组 


Trident 的 数据 模型 是 TridentTuple。 在 一 个 topology 中 ,tuple 是 在 一 系列 的 处 理 操 
作 (operation) 中 增 量 生成 的 。operation 一 般 以 一 组 字段 作为 输入 并 输出 一 组 功能 字段 
(function fileds) 。Operation 的 输入 字段 经 常 是 输入 tuple 的 一 个 子 集 , 而 功能 字段 则 是 
operation 的 输出 。 

看 下 面 这 个 例子 。 假 定 有 一 个 叫 作 “stream” 的 stream. £L & "x""y""z" EE, Ἢ 
了 运行 一 个 读 取 “y” 作 为 输入 的 过 滤器 MyFilter, 可 以 这 样 写 : 

stream.each (new Fields ("y") ,new MyFilter()) 

MyFilter 的 实现 如 下 : 


public class MyFilter extends BaseFilter { 
public boolean isKeep (TridentTuple tuple) ( 
return tuple.getInteger (0)< 10; 
} 
} 
ATRIA“ y” ΕΕΣ ΝΤ 10 的 tuples。 传 给 MyFilter 的 TridentTuple 参数 将 只 包 
含 字段 “y”。 需 要 注意 的 是 ,当选 择 输入 字段 时 ,Trident 只 发 送 tuple 的 一 个 子 集 , 这 个 操 
作 是 非常 高 效 的 。 
让 我 们 一 起 看 一 下 功能 字段 (function field) 是 怎样 工作 的 。 假 定 有 如 下 这 个 函数 ， 
public class AddAndMultiply extends BaseFunction ( 
public void execute (TridentTuple tuple, TridentCollector collector) { 
int il = tuple.getInteger (0); 
int 12 = tuple.getInteger (1); 
collector.emit (new Values(il 12, il* i2)); 


} 

这 个 函数 接收 两 个 数 作为 输入 并 输出 两 个 新 的 值 : 这 两 个 数 的 和 与 乘积 。 假 定 有 一 个 
stream, 其 中 包含 “xy” 和 “2 三 个 字段 。 可 以 这 样 使 用 这 个 函数 : 

stream.each (new Fields ("x","y"),new AddAndMultiply(), new Fields ("added", "multiplied")); 

输出 的 功能 字段 被 添加 到 输入 tuple 后 面 ,这 个 时 候 , 每 个 tuple 中 将 会 有 5 个 字段 “x” 
*y"*2"*added"" multiplied" , added" fll" multiplied” XJ iz F AddAndMultiply 输出 的 第 一 和 
第 二 个 字段。 

另外 ,可 以 使 用 聚合 器 来 将 输出 字段 替换 输入 tuple。 如 果 有 一 个 stream 包含 字段 
* vall""val2* , 可 以 这 样 做 : 


stream.aggregate (new Fields ("val2") ,new Sum(), new Fields ("sum")) 


输出 流 将 会 仅 包含 一 个 tuple, 该 tuple 有 一 个 sum 字段 ,该 sum 字段 就 是 一 批 tuple 中 
val2 字段 的 累积 和 。 但 是 若 对 groupby 之 后 的 流 进行 该 聚合 操作 , 则 输出 tuple 中 包含 分 
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组 字段 和 聚合 器 输出 的 字段 ,例如 


stream.groupBy (new Fields ("vall")) 


.aggregate (new Fields ("val2"), new Sum(), new Fields ("sum") ) 
这 个 例子 中 的 输出 包含 vall 字段 和 sum 字段 。 
12.1.4 状态 


在 实时 计算 领域 .怎样 管理 状态 并 轻松 应 对 错误 和 重 试 是 个 主要 问题 。 消 除 错误 是 不 
可 能 的 , 当 一 个 节点 死 掉 ,或 者 一 些 其 他 的 问题 出 现时 ,这 些 batch 需要 被 重新 处 理 。 问 题 
是 ,怎样 做 状态 更 新 来 保证 每 一 个 消息 被 处 理 且 只 被 处 理 一 次 ? 

这 是 一 个 很 棘手 的 问题 ,可 以 用 接 下 来 的 例子 进一步 说 明 。 假 定做 一 个 stream 的 计数 
聚合 ,并 且 想 要 存储 运行 时 的 count 到 一 个 数据 库 中 。 如 果 只 是 存储 这 个 count 到 数据 库 
中 ,并 且 想 要 进行 一 次 更 新 ,是 没有 办 法 知道 同样 的 状态 是 不 是 以 前 已 经 被 update 过 了 。 
这 次 更 新 可 能 在 之 前 就 尝试 过 ,并 且 已 经 成 功 地 更 新 到 数据 库 中 ,不 过 在 后 续 的 步骤 中 失败 
了 。 还 有 可 能 是 在 上 次 更 新 数据 库 的 过 程 中 失败 了 ,这 些 都 不 知道 。 

Trident 通过 做 下 面 两 件 事情 来 解决 这 个 问题 。 

(1) 每 一 个 batch 被 赋予 一 个 唯一 标识 id"transaction id”。 如 果 一 个 batch 被 重 试 , 它 
将 会 拥有 和 之 前 同样 的 transaction id。 

(2) 状态 更 新 是 按照 batch 的 顺序 进行 的 ( 强 顺 序 )。 也 就 是 说 ,batch 3 的 状态 更 新 必 
须 等 到 batch 2 的 状态 更 新 成 功 之 后 才 可 以 进行 。 

有 了 这 两 个 原则 ,就 可 以 达到 有 且 只 有 一 次 更 新 的 目标 。 此 时 ,不 是 只 将 count 存 到 数 
据 库 中 ,而 是 将 transaction id 和 count 作为 原子 值 存 到 数据 库 中 。 当 更 新 一 个 count 时 , 需 
要 比较 数据 库 中 transaction id 和 当前 batch 的 transaction id。 如 果 相 同 ,就 跳 过 这 次 更 新 ; 
如 果 不 同 ,就 更 新 这 个 count。 

当然 ,不 需要 在 topology 中 手动 处 理 这 些 逻 辑 ,这些 逻 辑 已 经 被 封装 在 State 的 抽象 中 
并 自动 进行 。State object 也 不 需要 自己 去 实现 transaction id 的 跟踪 操作 。 如 果 想 了 解 更 
多 的 关于 如 何 实现 一 个 State 以 及 在 容错 过 程 中 的 一 些 取舍 问题 ,可 以 参照 这 篇 文章 。 

一 个 State 可 以 采用 任何 策略 来 存储 状态 , 它 可 以 存储 到 一 个 外 部 的 数据 库 , 也 可 以 在 
内 存 中 保持 状态 并 备份 到 HDFS 中 。State 并 不 需要 永久 地 保持 状态 。 例 如 ,有 一 个 内 存 
版 的 State 实现 , 它 保 存 最 近 X 个 小 时 的 数据 并 丢弃 旧 的 数据 。 可 以 把 Memcached 
integration 作为 例子 来 看 看 State 的 实现 。 


12.1.5 Trident topology 的 执行 


Trident 的 topology 会 被 编译 成 尽 可 能 高 效 的 Storm topology。 只 有 在 需要 对 数据 进 
行 重新 分 配 (repartition) 时 (如 groupby 或 者 shuffle) . 才 会 把 tuple 通过 network 发 送出 
去 。 如 果 有 一 个 Trident topology 如 图 12-2 所 示 , 它 将 会 被 编译 成 如 图 12-3 所 示 的 Storm 
topology。 

可 以 看 出 ,Trident 使 实时 计算 更 加 优雅 。 使 用 Trident 的 API 来 完成 大 吞吐 量 的 流 式 
计算 ,状态 维护 、 低 延 时 查询 等 功能 .不 但 可 以 使 Trident 获取 最 大 性 能 ,还 可 以 以 更 自然 的 





12-3 Storm topology 


一 种 方式 进行 实时 计算 。 


12.2 Trident 接口 


12.2.1 综述 


Stream 是 Trident 中 的 核心 数据 模型 , 它 被 当 作 一 系列 的 batch 来 处 理 。 在 Storm ΠΕ 
群 的 节点 之 间 ,一 个 stream 被 划分 成 很 多 partition( 分 区 ) ,对 流 的 操作 (operation) 是 在 每 
个 partition 上 并 行进 行 的 。 

注意 : 





(D Stream 是 Trident 中 的 核心 数据 模型 ,有 些 地 方 说 是 TridentTuple, 没 有 标准 的 
说 法 。 

®© 一 个 Stream 被 划分 成 很 多 partition. partition 是 Stream 的 一 个 子 集 ,里面 可 能 有 多 
个 batch ,一 个 batch 也 可 能 位 于 不 同 的 partition 上 。 

Trident 包括 以 下 五 类 操作 。 

(1) Partition-local operations: 对 每 个 partition 的 局 部 操作 ,不 产生 网 络 传输 。 

(2) Repartitioning operations: 对 数据 流 的 重新 划分 (仅仅 是 划分 ,但 不 改变 内 容 ) , 产 
生 网 络 传输 。 

(3) Aggregation operations: 聚合 操作 。 

(4) Operations on grouped streams: 作用 在 分 组 流 上 的 操作 。 

(5) Merge Join 操作 。 


12.2.2 本 地 分 区 操作 


对 每 个 partition 的 局 部 操作 包括 function, filter, partitionAggregate, stateQuery、 
partitionPersist、project 等 。 
1. functions 
一 个 function 收 到 一 个 输入 tuple 后 可 以 输出 0 或 多 个 tuple, 输 出 tuple 的 字段 被 追加 
到 接收 到 的 输入 tuple 后 面 。 如 果 对 某 个 tuple 执行 function 后 没有 输出 tuple, WIX tuple 
被 过 滤 (filter) ,否则 就 会 为 每 个 输出 tuple 复制 一 份 输入 tuple 的 副本 。 假 设 有 如 下 的 
function: 
public class MyFunction extends BaseFunction { 
public void execute (TridentTuple tuple, TridentCollector collector) { 
for(int i= 0; i«tuple.getInteger(0); i++ ) { 
collector.emit (new Values (i)); 
} 


} 
假设 有 个 mystream (4 ifi (Stream) ,该 流 中 有 如 下 tupleCtuple WFR Jg [ "a" "b". "c"] )， 


12:3] 
[4,1,6] 
[3,0,8] 


运行 下 面 的 代码 : 
mystream.each (new Fields ("b") ,new MyFunction(), new Fields ("d"))) 
则 输出 tuple 中 的 字段 为 ["a","b","e","d"], 如 下 所 示 : 


[1,2,3,0] 
[1,2,3,1] 
[4,1,6,0] 
2. filters 
filter 收 到 一 个 输入 tuple 后 可 以 决定 是 否 留 着 这 个 tuple. Ἐ FH filter, 





public class MyFilter extends BaseFunction ( 
public boolean isKeep (TridentTuple tuple) ( 
return tuple.getInteger(0) == 1 && tuple.getInteger(1) == 2; 
i: 


} 
假设 有 如 下 这 些 tuple( 包 含 的 字段 为 ["a","b","c"])， 


[12,3] 
[2,1,1] 
[2,3,4] 


运行 下 面 的 代码 : 


mystream.each (new Fields ("b","a") ,new MyFilter()) 


则 得 到 的 输出 tuple 为 : 


[2,1,1] 


3. partitionAggregate 
partitionAggregate 对 每 个 partition 执行 一 个 function 操作 (实际 上 是 聚合 操作 ) ,但 它 


不 同 于 上 面 的 functions 操作 ,partitionAggregate 的 输出 tuple 将 会 取代 收 到 的 输入 tuple, 
如 下 面 的 例子 。 


mystream.partitionAggregate (new 
Fields ("b"), 

new 

Sum(), new 

Fields ("sum") ) 


假设 输入 流 包括 字段 ["a","b"], 并 有 下 面 的 partitions: 


Partition 0: 
["a", 1] 
["b", 2] 
Partition 1: 
[va", 3] 
["ο", 8] 
Partition 2: 
["e", 1] 
"d", 9] 
"d", 10] 


则 这 段 代 码 的 输出 流 包含 如 下 tuple, 且 只 有 一 个 sum 的 字段 。 


Partition 0: 
[3] 
Partition 1: 
E13] 
Partition 2: 
[20] 








上 面 代码 中 的 new Sum() 实 际 上 是 一 个 聚合 器 (aggregator) ,定义 一 个 聚合 器 有 三 种 
不 同 的 接口 : CombinerAggregator, ReducerAggregator 和 Aggregator. 
下 面 是 CombinerAggregator 接口 。 


public interface CombinerAggregator extends Serializable { 
T init (TridentTuple tuple); 
T combine (T vall, T val2); 
T zero(); 


} 


一 个 CombinerAggregator 仅 输出 一 个 tupleG&% tuple 也 只 有 一 个 字段 ) 。 每 收 到 一 个 
输入 tuple. CombinerAggregator 就 会 执行 init() 方 法 (该 方法 返回 一 个 初始 值 ) ,并 且 用 
combine() 方 法 汇总 这 些 值 , 直 到 剩 下 一 个 值 为 止 ( 聚 合 值 ) 。 如 果 partition 中 没有 tuple, 
CombinerAggregator 会 发 送 zero() 的 返回 值 。 下 面 是 聚合 器 Count 的 实现 。 


public class Count implements CombinerAggregator ( 
public Long init(TridentTuple tuple) ( 
return 1L; 
} 
public Long combine (Long vall, Long val2) { 
return vall * val2; 
} 
public Long zero() { 
return OL; 
} 
} 


当 使 用 aggregate 7γ δε [Ὁ ΒΕ partitionAggregate() 方 法 时 ,就 能 看 到 CombinerAggregation 
带 来 的 好 处 。 这 种 情况 下 ,Trident 会 自动 优化 计算 , 先 做 局 部 聚合 操作 ,然后 再 通过 网 络 传 
输 tuple 进行 全 局 聚合 。 

ReducerAggregator 接口 如 下 : 


public interface ReducerAggregator extends Serializable { 
Tinit(); 
T reduce(T curr, TridentTuple tuple); 

} 


ReducerAggregator 使 用 init() 方 法 产生 一 个 初始 值 , 对 于 每 个 输入 tuple, 依 次 迭代 这 个 初 
始 值 ,最 终 产生 一 个 单 值 输出 tuple。 下 面 示例 说 明 如 何 将 Count 定义 为 ReducerAggregator。 


public class Count implements ReducerAggregator ( 
public Long init() ( 
return OL; 
$ 


public Long reduce (Long curr, TridentTuple tuple) { 
return curr * 1; 
} 


} 
通用 的 聚合 接口 是 Aggregator, 如 下 所 示 : 


public interface Aggregator extends Operation { 
T init(Object batchId, TridentCollector collector); 





void aggregate (T state, TridentTuple tuple, TridentCollector collector); 


void complete (T state, TridentCollector collector); 
} 


Aggregator 可 以 输出 任意 数量 的 tuple, 且 这 些 tuple 的 字段 可 以 有 多 个 。 执 行 过 程 中 


的 任何 时 候 都 可 以 输出 tuple( 三 个 方法 的 参数 中 都 有 collector) 。Aggregator 的 执行 方式 
如 下 。 


CI) 处 理 每 个 batch 之 前 调用 一 次 init () 方 法 ,该 方法 的 返回 值 是 一 个 对 象 ,代表 


aggregation 的 状态 .并且 会 传递 给 下 面 的 aggregate() 和 complete() 方 法 。 


(2) 每 收 到 一 个 该 batch 中 的 输入 tuple 就 会 调用 一 次 aggregate, 该 方法 中 可 以 更 新 状 


态 ( 第 一 点 中 init() 方 法 的 返回 值 ) 。 
(3) 当 该 batch partition 中 的 所 有 tuple 都 被 aggregate() 方 法 处 理 完 之 后 调用 
complete 方法 。 


注意 ; 理解 batch .partition 之 间 的 区 别 将 会 更 好 地 理解 上 面 的 几 个 方法 。 | 


下 面 的 代码 将 Count 作为 Aggregator 实现 。 


public class CountAgg extends BaseAggregator ( 
static class CountState ( 
long count - 0; 
} 
public CountState init (Object batchId, TridentCollector collector) { 
return new CountState (); 
E 
public void aggregate (CountState state, TridentTuple tuple, 
collector) { 
state.countt- 1; 
H 
public void complete (CountState state, TridentCollector collector) ( 
collector.emit (new Values (state.count)); 
} 
} 


有 时 需要 同时 执行 多 个 聚合 操作 ,这 可 以 使 用 链 式 操作 完成 。 


mystream.chainedAgg () 
-partitionAggregate (new Count (), new Fields ("count") ) 
-partitionAggregate (new Fields ("b"), new Sum(), new Fields ("sum") ) 
-chainEnd() 


TridentCollector 


这 段 代 码 将 会 对 每 个 partition 执行 Count 和 Sum 聚合 器 ,并 输出 一 个 tuple( 字 段 为 


大 数据 
[ολα συ... 


"count", "sum" D, 
4. project 


经 Stream 中 的 project 方法 处 理 后 的 tuple 仅 保持 指定 字段 (相当 于 过 滤 字 段 )。 例 如 ， 
mystream 中 的 字段 为 ["a","b","c","d"], 执 行 下 面 代 码 : 


mystream.project (new Fields ("b", "d")) 
则 输出 流 将 仅 包含 ["b","d"J 字 段 。 
12.2.3 重新 分 区 操作 


Repartition 操作 可 以 改变 tuple 在 各 个 task 上 的 划分 。Repartition 也 可 以 改变 
Partition 的 数量 。Repartition 需要 网 络 传输 。 下 面 都 是 Repartition 操作 。 

(1) shuffle: 随机 将 tuple 均匀 地 分 发 到 目标 partition 里 。 

(2) broadcast: 每 个 tuple 被 复制 到 所 有 的 目标 partition 里 ,在 DRPC 中 有 用 ,可 以 在 
每 个 partition 上 使 用 stateQuery。 

(3) partitionBy: 对 每 个 tuple 选择 partition 的 方法 是 (该 tuple 指定 字段 的 hash 值 ) 
mod (目标 partition 的 个 数 ), 该 方法 确保 指定 字段 相同 的 tuple 能 够 被 发 送 到 同一 个 
partition。 但 同一 个 partition 里 可 能 有 字段 不 同 的 tuple。 

(4) global; 所 有 的 tuple 都 被 发 送 到 同一 个 partition, 

(5) batchGlobal: 确保 同一 个 batch 中 的 tuple 被 发 送 到 相同 的 partition 中 。 

(6) patition: 该 方法 接受 一 个 自 定义 分 区 的 function. 


12.2.4 PERHE 


Trident 中 有 aggregate() 和 persistent Aggregate O 77 3: Xt Hit HET RATEVE. aggregate O TE 
每 个 batch 上 独立 地 执行 ,persistemAggregate() 对 所 有 batch 中 的 所 有 tuple 进行 聚合 ,并 
将 结果 存 人 state 源 中 。 

aggregate() 对 流 做 全 局 聚合 , 当 使 用 ReduceAggregator 或 者 Aggregator 聚合 器 时 , 流 
先 被 重新 划分 成 一 个 大 分 区 ( 仅 有 一 个 partition) ,然后 对 这 个 partition 做 聚合 操作 。 另 外 ， 
当 使 用 CombinerAggregator 时 ,Trident 首先 对 每 个 partition 局 部 聚合 ,然后 将 所 有 这 些 
partition 重新 划分 到 一 个 partition 中 ,完成 全 局 聚合 。 相 比 而 言 ,CombinerAggregator 更 
高 效 ,推荐 使 用 。 

下 面 的 例子 使 用 aggregate() 对 一 个 batch 操作 ,得 到 一 个 全 局 的 count. 





mystream.aggregate (new Count () ,new Fields ("count") ) 


同 在 partitionAggregate 中 一 样 aggregate 中 的 聚合 器 也 可 以 使 用 链 式 用 法 。 但 是 ,如 
果 将 一 个 CombinerAggregator 链 到 一 个 非 CombinerAggregator 后 面 , Trident 就 不 能 做 局 
部 聚合 优化 。 


12.2.5 流 分 组 操作 


groupBy 操作 先 对 流 中 的 指定 字段 做 partitionBy 操作 .让 指定 字段 相同 的 tuple 能 被 
发 送 到 同一 个 partition 里 ,然后 在 每 个 partition 里 根据 指定 字段 值 对 该 分 区 里 的 tuple 进 





行 分 组 。 图 12-4 演示 了 groupBy 操作 的 过 程 。 
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图 12-4 groupBy 操作 过 程 


如 果 在 一 个 grouped stream 上 做 聚合 操作 ,聚合 操作 将 会 在 每 个 分 组 Cgroup) 内 进行 ， 
而 不 是 在 整个 batch. 上 。GroupStream 类 中 也 有 persistentAggregate 方法 ,该 方法 聚合 的 
结果 将 会 存储 在 一 个 key 值 为 分 组 字段 ( 即 groupBy 中 指定 的 字段 ) 的 MapState 中 ,这些 
还 是 在 Trident state 一 文中 讲解 。 


和 普通 的 stream 一 样 ,groupstream 上 的 聚合 操作 也 可 以 使 用 链 式 语法 。 


12.2.6 合并 和 连接 
最 后 一 部 分 内 容 是 关于 将 几 个 stream 汇总 到 一 起 ,最 简单 的 汇总 方法 是 将 它们 合并 成 
一 个 stream, 这 个 可 以 通过 Trident Topology 中 的 merge 方法 完成 ,代码 如 下 : 
topology.merge (stream, stream?, stream3) : 
Trident 指定 新 的 合并 之 后 的 流 中 的 字段 为 stream 中 的 字段 。 


另 一 种 汇总 方法 是 使 用 join( 连 接 ,类 似 于 sql 中 的 连接 操作 )。 下 面 代码 在 stream] 
(["key", "vall", "val2"]) 和 stream2[L,"vall"] 两 个 流 之 间 做 连接 操作 。 


topology. join (streaml, new Fields ( " key"), stream2, new Fields ("x"), new Fields 
("key", "a", "p","c")); 


上 面 这 个 连接 操作 使 用 key 和 x ΕΒΕ ΕΒΕ ΕΒΕ, ΓΒ Apu xe E 
(如 上 面 的 vall 字段 在 stream] 和 stream2 中 都 有 ) . Trident 要 求 指定 输出 新 流 中 的 所 有 字 
段 。 输 出 流 中 的 tuple 要 包含 下 面 这 些 字段 。 

(1) 连接 字段 列表 : 如 本 例 中 的 输出 流 中 的 key 字段 对 应 streaml 中 的 key 和 stream2 
中 的 x。 

(2) 来 自 所 有 输入 流 中 的 非 连接 字段 列表 ,按照 传人 join 方法 中 的 输入 流 的 顺序 ,如 本 
例 中 的 a 和 b 对 应 于 streaml 中 的 vall 和 val2,c 对 应 stream2 中 的 vall. 


12.3 Trident 状态 


Trident 在 读 写 有 状态 的 数据 源 方面 有 着 一 流 的 抽象 封装 。 状 态 既 可 以 保留 在 
topology 的 内 部 ,如 内 存 和 HDFS, 也 可 以 放 到 外 部 存储 中 ,如 Memcached 或 者 Cassandra, 
这 些 都 是 使 用 同一 套 Trident API。 

Trident 以 一 种 容错 的 方式 来 管理 状态 ,以致 当 用 户 在 更 新 状态 时 不 需要 考虑 错误 以 及 
重 试 的 情况 。 这 种 保证 每 个 消息 被 处 理 有 且 只 有 一 次 的 原理 会 让 用 户 放心 地 使 用 Trident 
的 topology。 

在 进行 状态 更 新 时 ,会 有 不 同 的 容错 级 别 。 在 讨论 之 前 , 先 通过 一 个 例子 来 说 明 如 何 达 
到 有 且 只 有 一 次 处 理 的 必要 的 技巧 。 假 设 做 一 个 关于 某 stream 的 计数 聚合 器 , 想 要 把 运行 
中 的 计数 存放 到 一 个 数据 库 中 。 如 果 在 数据 库 中 存 了 一 个 值 表示 这 个 计数 ,每 次 处 理 一 个 
tuple 之 后 ,就 将 数据 库存 储 的 计数 加 1。 

当 错 误 发 生 时 ,tuple 会 被 重播 。 这 就 带 来 了 一 个 问题 当 状 态 更 新 时 ,用 户 完 全 不 知 
道 是 不 是 在 之 前 已 经 成 功 处 理 过 这 个 tuple。 也 许 之 前 从 来 没 处 理 过 这 个 tuple, 这样 就 
应 该 把 count 加 1。 另 外 一 种 可 能 就 是 之 前 是 成 功 处 理 过 这 个 tuple, 但 是 在 其 他 的 步 又 
处 理 这 个 tuple 时 失败 了 (如 ack 丢失 ) ,在 这 种 情况 下 ,就 不 应 该 将 count 加 1。 再 者 ,用 户 
曾经 接收 过 这 个 tuple, 但 是 上 次 处 理 这 个 tuple 时 ,更 新 数据 库 失 败 了 ,这 种 情况 也 应 该 更 
新 数据 库 。 

如 果 只 是 简单 地 存 计数 到 数据 库 ,用 户 完全 不 知道 这 个 tuple 之 前 是 否 已 经 被 处 理 过 ， 
所 以 需要 更 多 的 信息 来 做 正确 的 决定 。Trident 提供 了 下 面 的 语义 来 实现 有 且 只 有 一 次 被 
处 理 的 目标 。 

(1) Tuples 被 分 成 小 的 集合 (一 组 tuple 被 称 为 一 个 batch) 进 行 批量 处 理 。 

(2) 每 一 批 tuples 被 给 定 一 个 唯一 ID 作为 事务 ID (txid) 。 当 这 一 批 tuple 被 重播 时 ， 
txid 不 变 。 

(3) 批 与 批 之 间 的 状态 更 新 是 严格 顺序 的 。 例 如 ,第 三 批 tuple 的 状态 的 更 新 必须 等 到 
第 二 批 tuple 的 状态 更 新 成 功 之 后 才 可 以 进行 。 

有 了 这 些 定义 ,用 户 的 状态 实现 可 以 检测 当前 这 批 tuple 是 否 以 前 处 理 过 ,并 根据 不 同 
的 情况 进行 不 同 的 处 理 , 这 个 处 理 取决 于 输入 Spout。 有 三 种 不 同类 型 的 可 以 容错 的 
Spout; non-transactional, transactional 和 opaque transactional。 对 应 也 有 三 种 容错 的 状 
Æ: non-transactional, transactional 和 opaque transactional。 下 面 来 看 看 每 一 种 Spout 类 
型 能 够 支持 什么 样 的 容错 类 型 。 


12.3.1 事务 spouts 


Trident 是 以 小 批量 C batch) 的 形式 在 处 理 tuple,. 并 且 每 一 批 都 会 分 配 一 个 唯一 的 
transaction id。 不 同 Spout 的 特性 不 同 ,一 个 transactional spout 会 有 如 下 这 些 特性 。 

CD 有 着 同样 txid 的 batch 一 定 是 一 样 的 。 当 重播 一 个 txid 对 应 的 batch 时 ,一定 会 
重播 和 之 前 对 应 txid 的 batch 中 同样 的 tuples。 

(2) 各 个 batch 之 间 是 没有 交集 的 ,每 个 tuple 只 能 属于 一 个 batch。 

(3) 每 一 个 tuple 都 属于 一 个 batch ,无 一 例外 。 

这 是 一 类 非常 容易 理解 的 Spout., tuple 流 被 划分 为 固定 的 batch 并 且 永 不 改变 。 
(trident-kafka 有 一 个 transactional spout 的 实现 。) 

有 人 也 许 会 问 : 为 什么 我 们 不 总 是 使 用 transactional spout? 这 很 容易 理解 。 一 个 原 
因 是 ,不 是 所 有 的 地 方 都 需要 容错 。 举 例 来 说 ,TransactionalTridentKafkaSpout 工作 的 方 
式 是 一 个 batch 包含 的 tuple 来 自 某 个 kafka topic 中 的 所 有 partition。 一 旦 这 个 batch 被 
发 出 ,在 任何 时 候 如 果 这 个 batch 被 重新 发 出 , 它 必 须 包 含 原来 所 有 的 tuple 以 满足 
transactional spout 的 语义 。 现 在 假定 一 个 batch 被 TransactionalTridentKafkaSpout 所 发 
出 ,这 个 batch 没有 被 成 功 处 理 , 并 且 同 时 kafka 的 一 个 节点 也 关闭 了 ,就 无 法 像 之 前 一 样 
重播 一 个 完全 一 样 的 batch( 因 为 kafka 的 节点 关闭 ,该 Topic 的 一 部 分 partition 可 能 会 无 
法 使 用 ) ,整个 处 理会 被 中 断 。 

这 也 就 是 *opaque transactional”spouts( 不 透明 事务 Spout) 存 在 的 原因 ,它们 对 丢失 源 
节点 这 种 情况 是 容错 的 ,仍然 能 够 帮 用 户 达 到 有 且 只 有 一 次 处 理 的 语义 。 后 面 会 对 这 种 
Spout 有 所 介绍 。 

在 讨论 “opaque transactional” spout 之 前 , 先 来 看 看 怎样 为 transactional spout 设计 一 
个 具有 exactly-once 语义 的 State 实现 。 这 个 State 的 类 型 是 “transactional state”, 并 且 它 
利用 了 任何 一 个 txid 总 是 对 应 同样 的 tuple 序列 这 个 语义 。 

假设 有 一 个 用 来 计算 单词 出 现 次 数 的 topology, 想 要 将 单词 的 出 现 次 数 以 key/value 
对 的 形式 存储 到 数据 库 中 。key 就 是 单词 ,value 就 是 这 个 单词 出 现 的 次 数 。 用 户 已 经 看 到 
只 是 存储 一 个 数量 是 不 足以 知道 是 否 已 经 处 理 过 一 个 batch 的 。 可 以 通过 将 value 和 txid 
一 起 存储 到 数据 库 中 。 这 样 , 当 更 新 这 个 count 之 前 ,可 以 先 去 比较 数据 库 中 存储 的 txid 和 
现在 要 存储 的 txid。 如 果 一 样 ,就 跳 过 什么 都 不 做 ,因为 这 个 value 之 前 已 经 被 处 理 过 了 。 
如 果 不 一 样 ,就 执行 存储 。 这 个 逻辑 可 以 工作 的 前 提 就 是 txid 永 不 改变 ,并 且 Trident 保证 
状态 的 更 新 是 在 batch 之 间 严 格 顺序 进行 的 。 

考虑 下 面 这 个 例子 的 运行 逻辑 ,假设 用 户 在 处 理 一 个 txid 为 3 的 包含 下 面 tuple 的 batch: 

L"man"] 

["man"] 

["dog"] 

假设 数据 库 中 当前 保存 了 下 面 这 样 的 key/value Xf; 

man => [count-3, txid-1] 


dog => [count=4, txid=3] 
apple => [count=10, txid=2] 


单词 man 对 应 的 txid 是 1。 因 为 当前 的 txid 是 3, 可 以 确定 用 户 还 没有 为 这 个 batch 
中 的 tuple 更 新 过 这 个 单词 的 数量 ,所 以 可 以 放心 地 给 count 加 2 并 更 新 txid 为 3。 与 此 同 
时 ,单词 dog AY txid 和 当前 的 txid 是 相同 的 ,因此 可 以 跳 过 这 次 更 新 。 此 时 数据 库 中 的 数 
据 如 下 : 

man => [count=5, txid=3] 

dog => [count=4, txid-3] 

apple => [count=10, txid=2] 

接 下 来 我 们 再 来 看 看 opaque transactional spout, 以 及 怎样 去 为 这 种 spout 设计 相应 的 


state。 


12.3.2 透明 事务 spouts 


正如 之 前 说 过 的 ,opaque transactional spout 并 不 能 确保 一 个 txid 所 对 应 的 batch 的 一 
SIE, —^f opaque transactional spout 有 如 下 特性 : 每 个 tuple 只 在 一 个 batch 中 被 成 功 处 
理 。 然 而 ,一 个 tuple 在 一 个 batch 中 被 处 理 失 败 后 ,有 可 能 在 另外 一 个 batch 中 被 成 功 
处 理 。 

OpaqueTridentKafkaSpout 是 一 个 拥有 这 种 特性 的 Spout, 并 且 它 是 容错 的 ,即使 
Kafka 的 节点 丢失 。 当 OpaqueTridentKafkaSpout 发 送 一 个 batch 时 , 它 会 从 上 个 batch 成 
功 结束 发 送 的 位 置 开 始 发 送 一 个 tuple 序列 ,确保 永远 没有 任何 一 个 tuple 会 被 跳 过 或 者 被 
放 在 多 个 batch 中 被 多 次 成 功 处 理 的 情况 。 

使 用 opaque transactional spout. 再 使 用 和 transactional spout 相同 的 处 理 方式 ,判断 
数据 库 中 存放 的 txid 和 当前 txid 做 对 比 已 经 不 好 用 了 。 因 为 在 state 的 更 新 过 程 中 , batch 
可 能 已 经 变 了 。 

户 只 能 在 数据 库 中 存储 更 多 的 信息 。 除 了 value 和 txid, 还 需要 存储 之 前 的 数值 在 
数据 库 中 。 让 我 们 还 是 用 上 面 的 例子 来 说 明 这 个 逻辑 。 假定 当 前 batch 中 对 应 的 count 是 
2 ,并 且 需 要 进行 一 次 状态 更 新 。 当 前 数据 库 中 存储 的 信息 如 下 


( value = 4, prevValue = 1, txid= 2} 


如 果 当 前 的 txid 是 3, 和 数据 库 中 的 txid 不 同 ,那么 就 将 value 中 的 值 设置 到 
prevValue 中 ,根据 当前 的 count 增加 value 的 值 并 更 新 txid。 更 新 后 的 数据 库 信息 如 下 : 


( value = 6, prevValue = 4, txid - 3} 


现在 再 假定 当前 txid 是 2. 和 数据 库 中 存放 的 txid 相同 。 这 就 说 明 数 据 库 里 面 value 
中 的 值 包含 之 前 一 个 和 当前 txid 相同 的 batch 更 新 。 但 是 上 一 个 batch 和 当前 这 个 batch 
可 能 已 经 完全 不 同 了 ,以 至 于 需要 无 视 它 。 在 这 种 情况 下 .需要 在 prevValue 的 基础 上 加 上 
当前 count 的 值 并 将 结果 存放 到 value 中 。 数 据 库 中 的 信息 如 下 : 


{ value = 3, prevValue = 1, txid= 2} 


因为 Trident 保证 了 batch 之 间 的 强 顺序 性 ,因此 这 种 方法 是 有 效 的 。 一 旦 Trident 去 
处 理 一 个 新 的 batch. 它 就 不 会 重新 回 到 之 前 的 任何 一 个 batch. 并且 由 于 opaque 
transactional spout 确保 在 各 个 batch 之 间 没 有 共同 成 员 .每 个 tuple 只 会 在 一 个 batch 中 被 


成 功 处 理 , 可 以 安全 地 在 之 前 的 值 上 进行 更 新 。 
12.3.3 非 事务 spouts 

Non-transactional Spout( 非 事务 Spout) 不 确保 每 个 batch 中 tuple HAM BABA). 
如 果 tuple 被 处 理 失 败 不 重 发 则 该 tuple 最 多 被 处 理 一 次 ,如 果 tuple 在 不 同 的 batch 中 被 


多 次 成 功 处 理 , 它 也 可 能 会 至 少 处 理 一 次 。 无 论 怎样 ,这 种 Spout 是 不 可 能 实现 有 且 只 有 一 
次 被 成 功 处 理 的 语义 。 





12.3.4 Spout fil State 总 结 


图 12-5 展示 了 哪些 Spout 和 State 的 组 合 能 够 实现 有 且 只 有 一 次 被 成 功 处理 的 语义 。 
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图 12-5 Spout 和 State 结合 实现 一 次 处 理 


Opaque transactional state 有 着 最 为 强大 的 容错 性 ,但 是 这 是 以 存储 更 多 的 信息 作为 
代价 的 。Transactional states 需要 存储 较 少 的 状态 信息 ,但 是 仅 能 和 transactional spouts 
协同 工作 。non-transactional state 所 需要 存储 的 信息 最 少 ,但 是 却 不 能 实现 有 且 只 有 一 次 
被 成 功 处 理 的 语义 。State 和 Spout 类 型 的 选择 其 实 是 一 种 在 容错 性 和 存储 消耗 之 间 的 权 
衡 ,用 户 的 应 用 需要 决定 哪 种 组 合 更 适合 用 户 。 


12.3.5 State 应 用 接口 


已 经 看 到 ,实现 有 且 只 有 一 次 被 执行 的 语义 的 复杂 性 。Trident 这 样 做 的 好 处 是 把 所 有 
涉及 容错 的 逻辑 都 放 在 了 State 里 面 ,作为 一 个 用 户 ,并 不 需要 自己 去 处 理 复杂 的 txid ,存储 
多 余 的 信息 到 数据 库 中 ,或 者 任何 其 他 类 似 的 事情 。 只 需要 写 如 下 这 样 简单 的 代码 。 


TridentTopology topology = new TridentTopology (); 

TridentState wordCounts — topology.newStream("spoutl", spout) 

.each (new Fields ("sentence"), new Split(), new Fields ("word")) 

-groupBy (new Fields ("word")) 

.persistentAggregate (MemcachedState. opaque (serverLocations), new Count (), new Fields (" 
count")) 

.parallelismHint (6) ; 


所 有 管理 opaque transactional state 所 需 的 逻辑 都 在 MemcachedState. opaque 方法 的 
调用 中 被 涵盖 了 , 除 此 之 外 ,数据 库 的 更 新 会 自动 以 batch 的 形式 来 进行 ,以 避免 多 次 访问 
数据 库 。State 的 基本 接口 只 包含 下 面 两 个 方法 。 


public interface State { 

void beginCommit (Long txid); //can be null for things like partitionPersist 
//occurring off a DRPC stream 

void commit (Long txid); 
) 


当 一 个 State 更 新 开始 时 ,以 及 当 一 个 State 更 新 结束 时 都 会 被 告知 ,并 且 会 告知 该 次 
的 txid。Trident 并 没有 对 State 的 工作 方式 有 任何 的 假定 。 

假定 已 经 搭 了 一 套数 据 库 来 存储 用 户 位 置信 息 , 并 且 想 要 在 Trident 中 访问 它 , 则 在 
State 的 实现 中 应 该 有 用 户 信息 的 set get 方法 。 


public class LocationDB implements State { 
public void beginCommit (Long txid) { 
) 
public void commit (Long txid) { 
) 
public void setLocation (long userId, String location) ( 
//code to access database and set location 
) 
public String getLocation (long userId) ( 
//code to get location from database 
) 
) 


还 需要 提供 给 Trident 一 个 StateFactory 在 Trident 的 task 中 创建 State 对 象 。 
LocationDB 的 StateFactory 可 能 如 下 所 示 。 

public class LocationDBFactory implements StateFactory { 

public State makeState (Map conf, int partitionIndex, int numPartitions) ( 
return new LocationDB(); 
} 

} 

Trident 提供 了 一 个 QueryFunction 接口 ,用 来 实现 Trident 中 在 一 个 state source 上 
查询 的 功能 ,同时 还 提供 了 一 个 StateUpdater 来 实现 Trident 中 更 新 state source 的 功能 。 
例如 , 写 一 个 查询 地 址 的 操作 ,这 个 操作 会 查询 LocationDB 来 找到 用 户 的 地 址 。 下 面 以 
怎样 在 topology 中 使 用 该 功能 开始 ,假定 这 个 topology 会 接收 一 个 用 户 id 作为 输入 数 
据 流 。 


TridentTopology topology = new TridentTopology (); 

TridentState locations — topology.newStaticState (new LocationDBFactory ()); 
topology.newStream("myspout", spout) 

-StateQuery (locations, new Fields ("userid"), new QueryLocation(), new Fields ("location")); 





下 面 是 QueryLocation 的 实现 方式 。 


public class QueryLocation extends BaseQueryFunction< LocationDB, String> { 
public List« String» batchRetrieve (LocationDB state, List<TridentTuple> inputs) { 
List«String» ret = new ArrayList (); 
for (TridentTuple input: inputs) { 
ret .add(state.getLocation (input .getLong(0))) ; 
} 
return ret; 
} 
public void execute (TridentTuple tuple, String location, TridentCollector collector) ( 
collector.emit (new Values (location)); 
} 
x 


QueryFunction 的 执行 分 为 两 部 分 : 首先 Trident 收集 了 一 个 batch 的 read 操作 并 把 
它们 统一 交 给 batchRetrieve。 在 这 个 例子 中 , batchRetrieve 会 接收 到 多 个 用 户 id. 
batchRetrieve 应 该 返还 一 个 大 小 和 输入 tuple 数量 相同 的 result 列表 。result 列表 中 的 第 
一 个 元 素 对 应 第 一 个 输入 tuple 的 结果 ,result 列表 中 的 第 二 个 元 素 对 应 第 二 个 输入 tuple 


的 结果 ,以 此 类 推 。 
可 以 看 到 ,这 段 代码 并 没有 像 Trident 那样 很 好 地 利用 batch 的 优势 ,而 是 为 每 个 输入 
tuple 去 查询 了 一 次 LocationDB。 一 种 更 好 地 操作 LocationDB 方式 应 该 如 下 : 


public class LocationDB implements State { 
public void beginCommit (Long txid) ( 
} 
public void commit (Long txid) { 
} 
public void setLocationsBulk(List« Long» userIds, List< String> locations) { 
//set locations in bulk 
} 
public List< String> bulkGetLocations (List« Long» userIds) { 
//get locations in bulk 
H 
} 


接着 ,可 以 这 样 改写 上 面 的 QueryLocation 。 


public class QueryLocation extends BaseQueryFunction< LocationDB, String> { 
public List< String» batchRetrieve (LocationDB state, List<TridentTuple> inputs) ( 
List«Long» userIds = new ArrayList« Long» (); 
for(TridentTuple input: inputs) ( 
userIds.add (input .getLong (0) ) ; 
} 
return state.bulkGetLocations (userIds) ; 
H 


public void execute (TridentTuple tuple, String location, TridentCollector collector) { 
collector.emit (new Values (location)); 
} 


通过 有 效 减 少 访问 数据 库 的 次 数 ,这 段 代码 比 上 一 个 实现 会 高 效 得 多 。 
如 果 要 更 新 State, 就 需要 使 用 StateUpdater 接口 。 下 面 是 一 个 StateUpdater 的 例子 ， 
用 来 将 新 的 地 址 信息 更 新 到 LocationDB 中 。 


public class LocationUpdater extends BaseStateUpdater« LocationDB> { 
public void updateState (LocationDB state, List < Tridentluple > tuples, TridentCollector 
collector) ( 
List«Long» ids = new ArrayList« Long» (); 
List«String» locations = new ArrayList« String» (); 
for(TridentTuple t: tuples) ( 
ids.add(t.getLong (0) ); 
locations .add(t.getString(1)); 
} 


state.setLocationsBulk (ids, locations); 


} 
下 面 列 出 了 应 该 如 何在 Trident topology 中 使 用 上 面 声 明 的 LocationUpdater, 





TridentTopology topology = new TridentTopology () ; 

TridentState locations - topology.newStream("locations", locationsSpout) 

.partitionPersist (new LocationDBFactory (), new Fields (" userid", " location"), new 
LocationUpdater ()) ; 


partitionPersist 操作 会 更 新 一 个 State. 其 内 部 是 将 State 和 一 批 更 新 的 tuple 26 45 
StateUpdater, 由 StateUpdater 完成 相应 的 更 新 操作 。 

在 这 段 代 码 中 ,只 是 简单 地 从 输入 的 tuple 中 提取 出 userid 和 对 应 的 location ,一 起 更 
新 到 State 中 。 

partitionPersist 会 返回 一 个 TridentState 对 象 来 表示 被 Trident topoloy 更 新 过 的 
location db ,然后 就 可 以 使 用 State 在 topology 的 任何 地 方 进 行 查询 操作 。 同 时 可 以 看 
到 我 们 传输 一 个 TridentCollector 给 StateUpdaters. collector 发 送 的 tuple 就 会 去 往 一 个 
新 的 stream。 在 这 个 例子 中 ,并 没有 去 往 一 个 新 的 stream 的 需要 ,但 是 如 果 在 做 一 些 事情 ， 
比如 更 新 数据 库 中 的 某 个 count, 可 以 发 送 (emit) 更 新 的 count 到 这 个 新 的 stream. KG 
可 以 通过 调用 TridentState + newValuesStream 方法 来 访问 这 个 新 的 Stream 进行 其 他 的 
处 理 。 


12.3.6 MapState 的 更 新 


Trident 有 另外 一 种 更 新 State 的 方法 叫 作 persistentAggregate。 这 在 之 前 的 word 
count 例子 中 应 该 已 经 见 过 了 .如 下 所 示 : 


TridentTopology topology = new TridentTopology () 7 

TridentState wordCounts = topology.newStream("spoutl", spout) 

.each (new Fields ("sentence"), new Split(), new Fields ("word")) 

-groupBy (new Fields ("word")) 

.persistentAggregate (new MemoryMapState.Factory(), new Count (), new Fields ("count")); 


persistentAggregate 是 在 partitionPersist 上 的 另外 一 层 抽象 , 它 知道 怎么 去 使 用 一 个 
Trident 聚合 器 来 更 新 State。 在 这 个 例子 中 ,因为 这 是 一 个 groupedstream. Trident 会 期 待 
用 户 提供 的 State 实现 了 MapState 接口 。 用 来 进行 group 的 字段 会 以 key 的 形式 存在 于 
State 中 ,聚合 后 的 结果 会 以 value 的 形式 存储 在 State 中 。MapState 接口 看 上 去 如 下 


所 示 。 





public interface MapState« T> extends State { 
List<T> multiGet (List«List«Object»» keys); 
List<T> multiUpdate (List« List« Object» » keys, List« ValueUpdater» updaters); 
void multiPut (List« List« Object» ^ keys, List« T» vals); 

) 


在 一 个 非 groupedstream 上 面 进行 聚合 时 ,Trident 会 期 待 State 实现 Snapshottable 接口 。 


public interface Snapshottable<T> extends State ( 
Tget(); 
T update (ValueUpdater updater); 
void se (T 0); 


} 
MemoryMapState 和 MemcachedState 分 别 实现 了 上 面 的 两 个 接口 。 


12.3.7 执行 MapState 


在 Trident 中 实现 MapState 是 非常 简单 的 , 它 几 乎 帮 人 们 做 了 所 有 的 事情 。OpaqueMap、 
TransactionalMap 和 NonTransactionalMap 25 3: ΒΝ T Er £j FAK 8937 4H . (135 E f ΠΠ ΡΒ, 
只 需要 将 一 个 IBackingMap 的 实现 提供 给 这 些 类 就 可 以 了 。IBackingMap 接口 如 下 所 示 。 

public interface IBackingMap<T> { 

List<T> multiGet (List<List< Object>> keys); 
void multiPut (List<List<Object>> keys, List<T> vals); 

) 

OpaqueMap 会 用 OpaqueValue 的 value 来 调用 multiPut O JP 3& . TransactionalMaps 
会 提供 TransactionalValue 中 的 value. 而 NonTransactionalMaps 只 是 简单 地 把 从 
topology 获取 的 object 传递 给 multiPut. 

Trident 还 提供 了 一 种 CachedMap 类 进行 自动 的 LRU cache。 

另外 , Trident 提供 了 SnapshottableMap 类 将 一 个 MapState 转换 成 一 个 Snapshottable 
对 象 。 

大 家 可 以 看 看 MemcachedState 的 实现 ,从 而 学 习 怎 样 将 这 些 工具 组 合 在 一 起 形成 一 
个 高 性 能 的 MapState 实现 。MemcachedState 允许 用 户 选 择 使 用 opaque transactional， 


transactional, 还 是 non-transactional 语义 。 


124 Trident-ML: 基于 storm 的 实时 在 线 机 器 学 习 库 


Trident-ML 是 一 个 实时 在 线 机 器 学 习 库 , 它 运 行 通过 可 伸缩 的 在 线 学 习 算 法 创建 的 实 
时 预测 特征 。 这 个 库 基 于 Storm, 其 包含 的 算法 设计 用 于 有 限 的 内 存 和 有 限 的 计算 时 间 的 


场景 ,但 是 不 适用 于 分 布 式 计算 。 

Trident-ML 目前 支持 线性 分 类 (Perceptron Passive-Aggresive. Winnow, AROW) 、 线 
性 回 IH (Perceptron, Passive-Aggresive)、 聚 类 (KMeans)、 特 征 缩 放 (standardization， 
normalization) ,文本 特征 提取 、 流 统计 (mean, variance)、 经 过 训练 的 Twitter 情绪 分 类 
器 等 。 

1, 创建 实例 

Trident-ML 的 处 理 对 象 是 由 Instance 或 者 TextInstance 这 些 无 限 集合 实现 的 无 限 数 
据 流 。 创 建 预测 工具 的 第 一 步 就 是 创建 实例 。Trident-ML 提供 Trident 函数 将 Trident 元 
组 (tuples) 转 换 为 实例 。 

(1) 利用 InstanceCreator 创建 实例 (Instance) 。 





TridentTopology toppology = newTridentTopology(); 


toppology 
// 发 射 带 有 两 个 随机 特征 ( 即 κο 和 x1) 的 元 组 以 及 一 个 相关 联 的 布尔 标签 (BI label) 


-newStream("randomFeatures", newRandomFeaturesSpout () ) 


// 将 trident tuple 转换 为 instance 
.each (newFields (" label"," x0", " x1"), new InstanceCreator < Boolean > (), newFields 


("instance")); 
(2) 利用 TextInstanceCreator 创建 TextInstance, 


TridentTopology toppology - newTridentTopology (); 
toppology 
// 发 射 带 有 文本 和 相关 联 的 标签 的 元 组 
.newStream("reuters", newReutersBatchSpout ()) 
// 将 trident tuple 转换 为 text instance 
. each (newFields ("label", "text"), new TextInstanceCreator < Integer» (), newFields (" 


instance")); 


2. 有 监督 分 类 

Trident-ML 含有 几 种 不 同 的 算法 来 做 有 监督 分 类 。 

PerceptronClassifier 实现 了 一 个 在 基于 平均 核 基 础 上 的 感知 器 的 二 元 分 类 器 。 

WinnowClassifier 实现 了 Winnow 算法 。 它 可 以 很 好 地 适用 于 高 维 数 据 , 并 且 当 很 多 
维度 不 相关 时 ,性 能 优 于 感知 器 。 

BWinnowClassifier 实现 了 平衡 Winnow 算法 , 即 原 始 Winnow 算法 的 一 个 扩展 。 

AROWClassifier 是 自 适应 权重 规范 化 (Adaptive Regularization of Weights) 的 一 个 简 
单 有 效 的 实现 , 它 具 有 的 属性 一 一 大 量 训练 (large margin training) , E fri Εξ ANAL (confidence 
weighting) ,可 以 训练 不 可 分 数据 。 

PAClassifier 实现 了 Passive-Aggresive binary classifier. 后 者 是 一 个 基于 裕 量 
(margin) 的 学 习 算 法 。 

MultiClassPAClassifier 是 Passive-Aggresive 算法 的 一 个 变种 ,可 以 实现 多 类 的 分 类 。 
这 些 分 类 器 利用 Classifier Updater 从 一 个 标注 过 的 Instance 数据 流 进行 学 习 。 另 一 个 未 标 
注 实例 的 数据 流 可 以 利用 ClassifyQuery 进行 分 类 。 

以 下 示例 学 习 得 到 NAND() 函数 ,分 类 来 自 DRPC 流 的 实例 。 





TridentTopology toppology - newTridentTopology (); 
// 从 标注 实例 创建 感知 器 状态 
TridentState perceptronModel = toppology 
// 发 射 带 有 标注 过 的 增强 NAND 特征 的 元 组 
// 即 {label= true, features- [1.0 0.0 1.0]) 或 者 {label= false, features- [1.0 1.0 1.0]) 
.newStream("nandsamples", newNANDSpout () ) 
// 更 新 感知 器 
.partitionPersist (newMemoryMapState. Factory () , newFields ("instance"), 
new ClassifierUpdater« Boolean» ("perceptron", newPerceptronClassifier())); 
// 分 类 来 自 REC 流 的 实例 
toppology.newDRPCStream("predict", localDRPC) 
// 将 DRPC ARGS 转换 为 无 标注 实例 
.each (newFields ("args"), newDRPCArgsToInstance () newFields ("instance") ) 
// 利 用 感知 器 状态 进行 分 类 
-StateQuery (perceptronModel, newFields ("instance") ,newClassifyQuery< Boolean> 
("perceptron"), newFields ("prediction") ); 


Trident-ML 提供 KLDClassifier, 它 实现 了 基于 Kullback-Leibler 距离 的 文本 分 类 器 。 
这 里 是 利用 Reuters 数据 集 创建 新 闻 分 类 器 的 代码 。 


TridentTopology toppology = newTridentTopology (); 
// 从 标注 实例 创建 KLD 分 类 器 状态 
TridentState classifierState = toppology 
// 发 射 带 有 文本 和 相关 联 的 标签 即 topic) 的 元 组 
-newStream("reuters", newReutersBatchSpout ()) 
// 将 trident tuple 转换 为 文本 实例 (instance) 
.each (newFields ("label", "text"), new TextInstanceCreator < Integer» (), newFields (" 
instance")) 
// 更 新 分 类 器 
partitionPersist  ( newMemoryMapState. Factory ( ), newFields ( ^" instance "), 
newTextClassifierUpdater ("newsClassifier", newKLDClassifier (9) )); 
// 分 类 数据 
toppology.newDRPCStream("classify", localDRPC) 
// 将 DRPC args 转换 为 文本 实例 instance) 
. each (newFields ( " args"), new TextInstanceCreator < Integer > (false), newFields 
("instance")) 
// 通 过 文本 实例 查询 分 类 器 
stateQuery (classifierState, newFields ( ^" instance"),  newClassifyTextQuery 
("newsClassifier"), newFields ("prediction") ); 


3. 无 监督 分 类 
KMeans 是 广为人知 的 k-means algorithm 算法 的 实现 , 它 用 来 将 一 些 实例 划分 为 不 同 
的 群 组 。 利 用 ClusterUpdater 或 者 ClusterQuery 分 别 更 新 群 组 或 者 查询 聚 类 器 。 


TridentTopology toppology = newTridentTopology (); 
// 训 练 数据 流 
TridentState kmeansState = toppology 
// 发 射 元 组 。 它 有 一 个 实例 ,这 个 实例 有 一 个 作为 标签 的 整数 和 三 个 double 型 的 特征 (κο, κι, x2) 


.newStream("samples", newRandomFeaturesForClusteringSpout () ) 

// 将 trident 元 组 (tuple) 转 换 为 实例 (instance) 

-each (newFields ("label","x0","x1","x2"), newInstanceCreator< Integer> (), newFields (" 
instance")) 

// 更 新 将 样本 划分 为 三 类 kmeans 算法 

.partitionPersist (newMemoryMapState.Factory () , newFields ("instance") , newClusterUpdater (" 
kmeans", newKMeans (3))) 7 
// 对 数据 流 进 行 聚 类 
toppology.newDRPCStream("predict", localDRPC) 

// 将 DRPC args 转换 为 instance 

.each (newFields ("args"), newDRPCArgsToInstance (), newFields ("instance")) 

// 查 询 kmeans 来 分 类 实例 

-StateQuery (kmeansState, newFields ("instance"), newClusterQuery (" kmeans"), newFields (" 
prediction")); 
4. 流 统计 
流 统计 ,例如 平均 值 标准 差 和 计数 ,可 以 很 容易 通过 Triden- ML 来 计算 。 这 些 统计 

值 存储 在 StreamStatistics 对 象 中 。 统 计 值 的 更 新 和 查询 分 别 利用 StreamStatisticsUpdater 
和 StreamStatisticsQuery 来 执行 。 

TridentTopology toppology = newTridentTopology (); 
// 更 新 流 统计 值 
TridentState streamStatisticsState = toppology 

// 发 射 带 有 随机 特征 的 元 组 

.newStream("randomFeatures", newRandomFeaturesSpout ()); 

// 将 trident 元 组 (tuple) 转 换 为 实例 ( instance ) 

.each (newFields ("x0", "x1"), newInstanceCreator () newFields ("instance")); 

// 更 新 流 统计 值 

. partitionPersist (newMemoryMapState. Factory ( ), newFields ( " instance"), newStream- 
StatisticsUpdater ("randomFeaturesStream", StreamStatistics.fixed())); 

// 查 询 流 统计 值 (通过 DRPC) 
toppology.newDRPCStream("queryStats", localDRPC) 

// 查 询 流 统计 值 

-StateQuery (streamStatisticsState, newStreamStatisticsQuery ("randomFeaturesStream"), newFields (" 
streamStats") ); 


需要 注意 的 是 , Trident -ML 可 以 滑动 窗 的 形式 支持 概念 漂移 。 可 以 使 用 StreamStatistics 
+ adaptive( maxSize) M 4s J& StreamStatistics# fixed() 来 构造 带 有 长 度 为 maxSize 的 窗口 的 
StreamStatistics 实现 。 

5. 预 处 理 数 据 

数据 预 处 理 是 数据 挖掘 中 很 重要 的 一 步 。 

Trident-ML 可 以 提供 Trident() 函 数 将 原始 特征 转换 为 适 于 机 器 学 习 的 描述 。 

Normalizer 将 实例 缩放 到 单位 尺度 。 


TridentTopology toppology = newTridentTopology (); 
// 发 射 带 有 两 个 随机 特征 ( 即 κο 和 κι) 以 及 一 个 相关 联 的 布尔 标签 ( 即 label) 的 元 组 


-newStream("randomFeatures", newRandomFeaturesSpout ()) 

// 将 trident 元 组 (tuple) 转 换 为 实例 ( instance ) 

.each (newFields ("label", "x0", "x1"), new InstanceCreator < Boolean» (), newFields (" 
instance")) 

// 将 特征 缩放 到 单位 尺度 


.each (newFields ("instance"), new Normalizer(), newFields ("scaledInstance")); 


StandardScaler 将 原始 特征 转换 为 标准 正 态 分 布 的 数据 ( 零 均值 ,单位 方差 的 高 斯 分 
fi). CRH Stream Statistics 减 去 均值 并 且 缩 小 方差 倍 。 


TridentTopology toppology = newTridentTopology(); 
toppology 

// 发 射 带 有 两 个 随机 特征 ( 即 κο 和 x1) 以 及 一 个 相关 联 的 布尔 标签 ( 即 label) 的 元 组 

-newStream("randomFeatures", newRandomFeaturesSpout () ) 

// 将 trident 元 组 转换 为 实例 (instance) 

.each (newFields ("label", "x0", "x1"), new InstanceCreator< Boolean» (), newFields (" 
instance")) 

// 更 新 流 统计 值 

. partitionPersist (newMemoryMapState. Factory ( ), newFields ( " instance"), newStreamr 
StatisticsUpdater ( " streamStats ", newStreamStatistics ( )), newFields ( " instance ", 
"streamStats")).newValuesStream() 


// 利 用 原始 流 的 统计 数据 来 标准 化 流 数 据 
. each (newFields ( " instance "," streamStats "), newStandardScaler ( ), newFields 
("scaledInstance")); 


6. 预先 训练 的 分 类 器 

Trident-ML 含有 预先 训练 的 twitter 情绪 分 类 器 , 它 建 立 于 由 Niek Sanders 开发 的 
Twitter 情绪 语料库 的 一 个 子 集 上 ,拥有 多 类 的 PA 分 类 器 ,可 以 将 Twitter 上 的 消息 分 类 
为 积极 或 者 消极 。 

这 个 分 类 器 以 一 个 trident() 函 数 的 形式 实现 ,可 以 很 容易 地 用 于 trident topology. 


TridentTopology toppology = newTridentTopology (); 
// 分 类 数据 流 
toppology.newDRPCStream("classify", localDRPC) 
// 查 询 分 类 器 
.each (newFields ("args"), newlwitterSentimentClassifier (), newFields ("sentiment")); 


(1) Maven 集成 。Trident-ML 发 布 于 Clojars (一 个 Maven 库 ) 。 
要 在 自己 的 项 目 中 使 用 Trident- ML ,需要 将 如 下 内 容 添加 到 用 户 的 pom. xml ΠΠ, 


clojars.org 
http://clojars.org/repo 
com.github.pmerienne 
trident- ml 

0.0.4 





(2) Trident-ML 不 支持 分 布 式 学 习 。Storm 允许 Trident-ML 以 分 布 式 来 处 理 一 批 元 
组 (数据 集会 在 几 个 节点 上 计算 ) 。 这 意味 着 Trident-ML 可 以 对 负载 进行 水 平 伸缩 。 为 了 
能 够 实时 添加 ,Storm 禁止 状态 更 新 ,而 模型 学 习 就 是 通过 状态 更 新 完成 的 。 这 就 是 为 什么 
学 习 过 程 不 是 分 布 式 的 。 缺 乏 这 样 的 并 行 性 不 是 一 个 真正 的 瓶颈 ,因为 增 量 式 算法 很 快 ,也 
很 简单 。 

Triden-ML 不 会 实现 分 布 式 算法 ,这 是 由 它 的 设计 决定 的 。 因 此 无 法 实现 分 布 式 学 
习 , 但 是 依然 可 以 划分 用 户 的 数据 进行 预 处 理 或 者 以 一 种 分 布 式 的 方式 充实 用 户 的 数据 。 


本 章 小 结 


在 本 章 中 ,主要 对 Storm 中 更 高 级 的 抽象 Trident 进行 了 介绍 。 首 先 ,通过 一 个 简单 的 
示例 介绍 对 Trident 的 功能 ,Reach 字段 和 元 组 进行 简单 介绍 。 其 次 ,对 Trident 的 应 用 接 
口 的 使 用 进行 举例 介绍 。 再 次 ,对 Trident spout 事务 和 状态 进行 介绍 。 最 后 ,介绍 了 
Trident-ML, 一 个 基于 Storm 的 实时 在 线 机 器 学 习 库 。 

第 13 章 将 对 Storm 的 一 大 开发 组 件 DRPC 进行 介绍 。 


习 B 


(1) Trident 对 Storm 提供 了 什么 能 力 ? 

(2) 为 什么 Trident 在 如 何 最 大 限度 地 保证 执行 topology 性 能 方面 是 非常 智能 的 ? 
(3) Storm 如 何 保证 每 个 消息 都 被 处 理 一 次 ? 

(4) 怎么 在 Storm 上 面 做 统计 个 数 之 类 的 事情 ? 

(5) 如 何 实现 Transactional Topologies? 

(6) 与 每 次 只 处 理 一 个 tuple 的 简单 方案 相 比 ,一 个 更 好 的 方案 是 什么 ? 


13.1 DRPC 概 19 


Storm 里 面 引 入 DRPC 主要 是 利用 Storm 的 实时 计算 能 力 并 行 化 CPU 密集 型 (CPU 
intensive) 的 计算 任务 。DRPC 的 Storm topology 以 函数 的 参数 流 作 为 输入 ,而 把 这 些 函 数 
调用 的 返回 值 作为 topology 的 输出 流 。 

DRPC 其 实 不 能 算是 Storm 本 身 的 一 个 特性 , 它 是 通过 组 合 Storm 的 原 语 stream, 
spout、bolt 和 topology 而 成 为 一 种 模式 (pattern) 。 

Distributed RPC 是 由 一 个 “DPRC 服务 器 ”协调 (Storm 自 带 了 一 个 实现 )。DRPC 服务 
器 协调 : 接收 一 个 RPC 请 求 ,@ 发 送 请 求 到 Storm topology. ©MM Storm topology 接收 
结果 ,@ 把 结果 发 回 给 等 待 的 客户 端 。 从 客户 端的 角度 来 看 ,调用 一 个 DRPC 和 一 个 普通 
的 RPC 调用 没有 任何 区 别 。 例 如 .下面 是 客户 端 如 何 调用 DRPC 计算 reach 功能 
(function) 的 结果 ,如 图 13-1 Bros 。 

DRPCClient 

client - new 

DRPCClient ("drpc- host", 

3712); 

String 


result = client.execute ("reach", 
"http://twitter.com"); 


DRPC 的 工作 流程 如 图 13-1 所 示 。 


["request-id","result"] 


"result" DRPC topol 
opolo; 
"args"=| Server PoS 


["request-id","args","return-info"] 


=) 


图 13-1 DRPC 工作 流程 





客户 端 给 DRPC 服务 器 发 送 要 执行 的 函数 (function) 的 名 字 , 以 及 这 个 函数 的 参数 。 
实现 了 这 个 函数 的 topology 使 用 DRPCSpout 从 DRPC 服务 器 接收 函数 调用 流 ,每 个 函数 
调用 被 DRPC 服务 器 标记 了 一 个 唯一 的 id。 这 个 topology 然后 计算 结果 ,在 topology 的 最 
后 ,一 个 叫 作 ReturnResults 的 Bolt 会 连接 到 DRPC 服务 器 ,并 且 把 这 个 调用 的 结果 发 送 给 
DRPC 服务 器 (通过 唯一 的 id 标识 )。DRPC 服务 器 用 唯一 id 与 等 待 的 客户 端 匹配 ,唤醒 这 
个 客户 端 并 且 把 结果 发 送 给 它 。 





132 DRPC 自动 化 组 件 


Storm 自 带 了 一 个 称 作 LinearDRPCTopologyBuilder 的 topology builder. 它 把 实现 
DRPC 的 几乎 所 有 步骤 都 自动 化 。 
(1) 设置 Spout, 
(2) 把 结果 返回 给 DRPC 服务 器 。 
(3) 给 Bolt 提供 有 限 聚 合 元 组 tuples 的 能 力 。 
下 面 蚌 一 个 在 输入 参数 后 面 添加 一 个 1” 的 DRPC topology 实现 的 例子 。 
public static class exclaimBolt extends BaseBasicBolt ( 
public void execute (Tuple tuple, BasicOutputCollector collector) { 
String input = tuple.getString(1); 
collector.emit (new Values (tuple.getValue (0), input + "!")); 
) 
public void declareOutputFields (OutputFieldsDeclarer declarer) ( 
declarer.declare (new Fields ("id","result")); 
) 
) 
public static void main(String| ] args) throws Exception { 
LinearDRPCIopologyBuilder builder = new LinearDRPCIbpologyBuilder ("exclamation"); 
builder.addBolt (new ExclaimBolt () ,3); 
//... 
) 
可 以 看 出 ,我 们 需要 做 的 事情 非常 少 。 创建 LinearDRPCTopologyBuilder 时 ,需要 告 
诉 它 要 实现 的 DRPC 函数 (DRPC function) 的 名 字 。 一 个 DRPC 服务 器 可 以 协调 很 多 函 
数 ,函数 与 函数 之 间 靠 函数 名 字 来 区 分 。 声 明 的 第 一 个 Bolt 会 接收 一 个 两 维 tuple,tuple 的 
第 一 个 字段 是 request-id, 第 二 个 字段 是 这 个 请 求 的 参数 。LinearDRPCTopologyBuilder 同 
时 要 求 topology 的 最 后 一 个 Bolt 发 送 一 个 形 如 [id,result] 的 二 维 tuple: 第 一 个 field 是 
request-id, 第 二 个 field 是 这 个 函数 的 结果 。 最 后 所 有 中 间 tuple 的 第 一 个 field 必须 是 
request-id。 
在 这 个 例子 里 ,ExclaimBolt 简单 地 在 输入 tuple 的 第 二 个 field 后 面 再 添加 一 个 “1”， 
其 余 的 事情 都 由 LinearDRPCTopologyBuilder 完成 : 连接 到 DRPC 服务 器 ,并 且 把 结果 
发 回 。 


13.3 本 地 模式 DRPC 


DRPC 可 以 本 地 模式 运行 ,下 面 就 是 以 本 地 模式 运行 上 面 例子 的 代码 。 


LocalDRPC drpc = new LocalDRPC (); 

LocalCluster cluster = new LocalCluster(); 

cluster.submitTopology ("drpc- demo", conf, builder.createLocalTopology (drpc)); 
System.out.println("Results for 'hello':" + drpc.execute ("exclamation", "hello")); 
cluster.shutdown () ; 

drpc.shutdown () ; 


首先 要 创建 一 个 LocalDRPC 对 象 ,这 个 对 象 在 进程 内 模拟 一 个 DRPC 服务 器 (类 似 了 
LocalCluster 在 进程 内 模拟 一 个 Storm 集群 ) ,然后 创建 LocalCluster 对 象 ,在 本 地 模式 运 
行 topology, LinearTopologyBuilder 有 单独 的 方法 来 创建 本 地 的 topology 和 远程 的 
topology。 在 本 地 模式 下 ,LocalDRPC 对 象 不 和 任何 端口 绑 定 , 所 以 topology 对 象 需要 知 
道 和 谁 交 互 ,这 就 是 为 什么 createLocalTopology 方法 接受 一 个 LocalDRPC 对 象 作为 输入 
的 原因 。 

把 topology 启动 之 后 ,就 可 以 通过 调用 LocalDRPC 对 象 的 execute 来 调用 RPC 
ΙΤ. 


Π 





134 远程 模式 DRPC 


在 一 个 真实 集群 上 面 DRPC 也 是 非常 简单 的 ,有 三 个 步骤 。 

(1) 启动 DRPC 服务 器 。 

(2) 配置 DRPC 服务 器 的 地 址 。 

(3) 提交 DRPC topology 到 Storm 集群 里 面 。 

可 以 通过 bin/storm drpe 命令 先 启 动 DRPC 服务 器 。 接 着 ,需要 让 Storm 集群 知道 
DRPC 服务 器 的 地 址 。DRPCSponut 需要 这 个 地 址 ,从 而 可 以 从 DRPC 服务 器 接收 函数 调 
用 。 这 个 可 以 配置 在 storm. yaml 或 者 通过 代码 的 方式 配置 在 topology 里 。 通 过 storm. 
yaml 配置 如 下 。 


drpc.servers: 
- "drpcl.foo.com" 
— "drpc2.foo.com" 


最 后 ,通过 StormSubmitter 对 象 来 提交 DRPC topology( 这 个 跟 用 户 提 交 其 他 
topology 没有 区 别 )。 如 果 要 以 远程 的 方式 运行 上 面 的 例子 ,用 下 面 的 代码 。 





StormSubmitter.submitTopology ("exclamation- drpc", 
conf, builder.createRemoteTopology ()); 





用 createRemoteTopology 方法 来 创建 运行 在 真实 集群 上 的 DRPC topology. 


大 数据 
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135 一 个 更 复杂 的 例子 


以 上 的 DRPC 例子 只 是 为 了 介绍 DRPC 概念 的 一 个 简单 例子 。 下 面 看 一 个 复杂 的 确 
实 需要 Storm 的 并 行 计算 能 力 的 例子 ,这 个 例子 计算 Twitter 上 面 一 个 URL 的 reach 值 。 
一 个 URL 的 reach 值 是 该 URL 对 应 的 推 文 能 到 达 (reach) 的 用 户 数 量 , 要 计算 一 个 URL 
的 reach 值 ,需要 做 几 个 事情 。 

(1) 获取 所 有 推 文中 包含 这 个 URL 的 人 (转发 过 该 URL 的 人 )。 

(2) 获取 这 些 人 的 粉丝 。 

(3) 把 这 些 粉 丝 去 重 。 

(4) 获取 这 些 去 重 之 后 的 粉丝 个 数 ( 即 reach 值 )。 

一 个 简单 的 reach 计算 可 能 会 涉及 成 千 上 万 个 数据 库 的 调用 ,并 且 可 能 涉及 千 万 数量 
级 的 粉丝 用 户 。 这 个 确实 可 以 说 是 CPU intensive 的 计算 ,但 在 Storm 上 面 来 实现 这 个 是 
非常 简单 的 。 在 单 台 机 器 上 ,一 个 reach 计算 可 能 需要 花费 几 分 钟 ,而 在 一 个 Storm 集群 
里 ,即使 是 最 难 的 URL, 也 只 需要 几 秒 。 

reach topology 的 例子 可 以 在 storm-starter 上 找到 ,reach topology 的 定义 如 下 : 

LinearDRPCTopologyBuilder builder = new LinearDRPCTopologyBuilder ("reach"); 

builder.addBolt (new GetTweeters(), 3); 

builder.addBolt (new GetFollowers(), 12) 

.shuffleGrouping(); 
builder.addBolt (new PartialUniquer(), 6) 
.fieldsGrouping (new Fields ("id", "follower")); 
builder.addBolt (new CountAggregator(), 2) 
-fieldsGrouping (new Fields ("id")); 

这 个 topology 分 四 步 执行 。 

A) GetTwitters 获取 转发 该 推 文 的 所 有 用 户 , 它 接收 输入 流 [id, url]. € {8 ih Γιά, 
twitter]。 每 个 URL tuple 会 对 应 很 多 twitter tuple。 

(2) GetFollowers 获取 这 些 转发 者 (twitter) 的 粉丝 , 它 接收 输入 流 [id,twitter], 输 出 
[id,follower]。 当 然 , 当 某 人 关注 的 多 个 人 都 转发 了 同一 条 推 文 时 ,follower tuple 会 存在 
重复 ,这 就 需要 下 一 步 的 去 重 。 

(3) PartialUniquer 通过 粉丝 的 id 来 分 类 粉丝 ,使 相同 的 粉丝 会 被 引导 到 同一 个 task. 
因此 ,不同 的 task 接收 到 的 粉丝 是 不 同 的 ,从 而 起 到 去 重 的 作用 。 它 的 输出 流 [id,count]， 
即 输出 这 个 task 上 统计 的 粉丝 个 数 。 

(4) 最 后 ,CountAggregator 接收 到 所 有 的 局 部 数量 .把 它们 加 起 来 就 算出 了 reach 值 。 

接 下 来 看 一 下 PartialUniquer 的 实现 。 

public class PartialUniquer extends BaseBatchBolt { 

BatchOutputCollector collector; 

Object id; 

Set< String> followers = new HashSet« String» (); 
@ Override 





public void prepare (Map conf, TopologyContext context, BatchOutputCollector collector, 
Object id) { 
. collector = collector; 
_id = id; 


} 
Q Override 
public void execute (Tuple tuple) ( 
_ followers.add (tuple.getString(1)); 
} 
@ Override 
public void finishBatch() { 
_collector.emit (new Values( id, followers.size())); 
H 
Q Override 
public void declareOutputFields (OutputFieldsDeclarer declarer) ( 
declarer.declare (new Fields ("id", "partial- count")); 
} 
} 
当 PartialUniquer 在 Execute -方法 里 面 接收 到 一 个 粉丝 tuple 时 , 它 把 这 个 tuple 添加 
到 当前 request-id 对 应 的 Set 里 (利用 Set 元 素 不 重复 的 特点 进行 去 重 ) 。 
PartialUniquer 继承 了 BaseBatchBolt 类 。 对 于 每 个 request-id, 创 建 一 个 相应 batch 
bolt 的 实例 ,并且 Storm 会 在 合适 时 清理 这 些 实例 。batch bolt 提供 了 finishBatch 方法 ,该 | 
方法 将 在 batch 中 的 所 有 tuple 被 处 理 完 之 后 调用 。PartialUniquer 仅 发 送 一 个 tuple, 包 含 


当前 request-id 在 task 上 的 粉丝 数量 。 


本 章 小 结 


在 本 章 中 ,通过 介绍 DRPC 的 自动 化 组 件 LinearDRPCTopologyBuilder、 本 地 模式 以 及 
远程 模式 的 DRPC 对 Storm 中 的 DRPC 进行 了 介绍 。 
第 14 章 将 通过 两 个 具体 的 工程 实例 对 Storm 进行 进一步 的 介绍 。 


j Β 


COD 什么 是 DRPC.DRPC 的 作用 是 什么 ? DRPC 分 为 几 部 分 ,服务 端 由 几 部 分 组 成 ? 
(2) DRPC 的 工作 流 是 怎样 的 ? 

(3) 函数 与 函数 之 间 靠 什么 来 区 分 ? 

(4) LinearDRPCTopologyBuilder 的 工作 原理 是 什么 ? 


141 网 站 页 面 浏览 量 计算 


14.1.1 背景 介绍 

对 网 站 的 运营 者 来 说 ,网 站 页 面 浏览 量 的 统计 是 必 不 可 少 的 内 容 。 无 论 是 对 网 页 质量 
的 改进 ,还 是 对 公司 的 战略 部 署 都 有 着 一 定 的 参考 价值 。 若 要 使 用 Storm 对 网 站 的 页 面 浏 
览 量 进行 统计 ,需要 从 两 个 方面 进行 考虑 : @ 性 能 问题 ; @ 线 程 安全 问题 。 日 志 是 发 生 在 
网 站 服务 器 上 的 所 有 事件 的 记录 ,包括 用 户 访问 时 间 和 用 户 访问 URL 等 。 对 一 些 大 型 网 
站 来 说 ,用 户 的 访问 量 是 巨大 的 ,因此 要 对 访问 日 志 进 行 分 析 ,就 必须 用 到 大 数据 技术 。 
14.1.2 体系 结构 


程序 的 拓扑 关系 如 图 14-1 所 示 。 


PVBolt 通 过 4 个 线程 8 个 task 实 例 同时 处 理 





PVBolt 8 个 taskid 对 应 的 统计 数 
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某 个 文件 目录 k : 8 个 taskid，v 对 应 8 个 task 的 pv 数据 






































pr 通过 统计 所 有 taskid 的 pv 和 即 为 总 pv 
每 个 task 实 例 具有 taskid 和 pv 数据 
图 14-1 程序 框架 


14.1.3 项 目 相关 介绍 


该 项 目 主要 通过 Storm 拓扑 来 完成 对 京东 网 站 的 页 面 浏览 量 的 计算 ,该 项 目 用 到 了 
Storm 和 HBase 相关 技术 ,其 中 hbase-site. xml 的 内 容 如 图 14-2 Bros 。 





Node Content | 








14 xml version="LO" 
ΤΊ xml-stylesheet. _type="text/xs!” href="configuration.xs!" 
[s ['* * * licensed to the Apache Software Foundation (ASF) under one * or more contribut.. 














图 14-2 hbase-site. xml 层级 


14.1.4. Storm 编码 实现 


1. 编写 topology 


package com.storm; 
import backtype.storm.Config; 
import backtype.storm.LocalCluster; 
import backtype.storm.StormSubmitter; 
import backtype.storm.generated.AlreadyAliveException; 
import backtype.storm.generated.InvalidTopologyException; 
import backtype.storm.topology.TopologyBuilder; 
import backtype.storm.utils.Utils; 
import storm.kafka.KafkaSpout; 
import storm.kafka.SpoutConfig; 
import storm.kafka.ZkHosts; 
import java.util.HashMap; 
import java.util.Map; 
import java.util.UUID; 
public class PVTopology { 
public final static String SPOUT ID = KafkaSpout.class.getSimpleName () ; 
public final static String PVBOLT ID = PVBolt.class.getSimpleName () ; 
public final static String PVTOPOLOGY ID = PVTopology.class.getSimpleName () ; 
public final static String PVSUMBOLT ID = PVSumBolt.class.getSimpleName () ; 
public static void main(String| | args) throws AlreadyAliveException, 
InvalidTopologyException ( 
TopologyBuilder builder = new TopologyBuilder(); 
String brokerZkStr = "172.19.176.49:2181,172.19.176.50:2181,172.19.176.51:2181, 172. 
19.176.52:2181,172.19.176.53:2181/kafka"; 
String zkRoot = "/kafka"; 
ZkHosts zkHosts = new ZkHosts (brokerZkStr); 
String topic = "flow normalized json"; 


String id = UUID.randomUUID() .toString(); 
SpoutConfig spoutconf = new SpoutConfig(zkHosts, topic, zkRoot, id); 
builder.setSpout (SPOUT_ID, new KafkaSpout (spoutconf), 1); 
builder.setBolt ( PVBOLT ID, new PVBolt(), 4).shuffleGrouping(SPOUT ID); 
builder.setBolt( PVSUMBOLT ID, new PVSumBolt(), 1).shuffleGrouping (PVBOLT ID); 
Map«String,Object» conf = new HashMap< String,Object» (); 
conf.put(Config. TOPOLOGY RECEIVER BUFFER SIZE , 8); 
conf .put (Config.TOPOLOGY TRANSFER BUFFER SIZE, 32); 
conf.put(Config.TOPOLOGY EXECUTOR RECEIVE BUFFER SIZE, 16384); 
conf.put(Config.TOPOLOGY EXECUTOR SEND BUFFER SIZE, 16384); 
if(args!- null && args.length> 0) { 

StormSubmi tter.submi t'Ippology (PVTOPOLOGY ID, conf, builder.createTopology ()) ; 
Jelse { 

LocalCluster cluster- new LocalCluster(); 

cluster.submitTopology (PVTOPOLOGY ID,conf,builder.createTopology ()); 

Utils.sleep (10000); 

cluster.killTopology (PVTOPOLOGY ID); 

cluster.shutdown(); 


) 
2. 编写 bolt 


package com.storm; 
import backtype.storm.Config; 
import backtype.storm.LocalCluster; 
import backtype.storm.StormSubmitter; 
import backtype.storm.generated.AlreadyAliveException; 
import backtype.storm.generated.InvalidTopologyException; 
import backtype.storm.topology.TopologyBuilder; 
import backtype.storm.utils.Utils; 
import storm.kafka.KafkaSpout; 
import storm.kafka.SpoutConfig; 
import storm.kafka.ZkHosts; 
import java.util.HashMap; 
import java.util.Map; 
import java.util.UUID; 
public class PVTopology { 
public final static String SPOUT ID = KafkaSpout.class.getSimpleName () ; 
public final static String PVBOLT ID = PVBolt.class.getSimpleName () ; 
public final static String PVTOPOLOGY ID = PVTopology.class.getSimpleName () ; 
public final static String PVSUMBOLT ID = PVSumBolt.class.getSimpleName () ; 
public static void main (String| ] args) throws AlreadyAliveException, 
InvalidTopologyException ( 
TopologyBuilder builder = new TopologyBuilder(); 
String brokerZkStr = "172.19.176.49:2181,172.19.176.50:2181,172.19.176.51:2181, 172. 
19.176.52:2181,172.19.176.53:2181/kafka"; 
String zkRoot = "/kafka"; 
ZkHosts zkHosts = new ZkHosts (brokerZkStr); 
String topic = "flow normalized json"; 
String id = UUID.randomUUID() .toString(); 





SpoutConfig spoutconf = new SpoutConfig(zkHosts, topic, zkRoot, id); 
builder.setSpout (SPOUT ID, new KafkaSpout (spoutconf), 1); 
builder.setBolt( PVBOLT ID, new PVBolt (), 4).shuffleGrouping(SPOUT ID); 
builder.setBolt( PVSUMBOLT ID, new PVSumBolt(), 1).shuffleGrouping(PVBOLT ID); 
Map«String,Object» conf = new HashMap< String,Object» (); 
conf.put(Config. TOPOLOGY RECEIVER BUFFER SIZE , 8); 
conf.put(Config.TOPOLOGY TRANSFER BUFFER SIZE, 32); 
conf.put(Config.TOPOLOGY EXECUTOR RECEIVE BUFFER SIZE, 16384); 
conf.put(Config.TOPOLOGY EXECUTOR SEND BUFFER SIZE, 16384); 
if(args!= null && args.length> 0) { 

StormSuhmitter.submit Topology (ΡΥΤΟΡΟΤΟΟΥ ID,conf,builder.createTopology ()) ; 
Jelse ( 

LocalCluster cluster- new LocalCluster(); 

cluster.submitTopology (PVTOPOLOGY ID, conf, builder.createTopology ()); 

Utils.sleep (10000); 

cluster.killTopology (PVTOPOLOGY ID); 

cluster.shutdown(); 


} 
3. 构建 Spout 


package com.storm; 
import backtype.storm.task.OutputCollector; 
import backtype.storm.task.TopologyContext; 
import backtype.storm.topology.OutputFieldsDeclarer; 
import backtype.storm.topology.base.BaseRichBolt; 
import backtype.storm.tuple.Tuple; 
import com.storm.util.HBaseDAO; 
import org.apache.commons.lang.StringUtils; 
import org.slf4j.Logger; 
import org.s1f4j.LoggerFactory; 
import javax.xml.crypto.Data; 
import java.util.Date; 
import java.util.HashMap; 
import java.util.Map; 
public class PVSumBolt extends BaseRichBolt ( 
private static final long serialVersionUID = 1L; 
private OutputCollector collector; 
private Μαρς Integer, Long> map = new HashMap< Integer, Long? (); 
private static Logger LOG- LoggerFactory.getLogger (PVBolt.class); 
@ Override 
public void prepare (Map map, TopologyContext topologyContext, OutputCollector 
outputCollector) { 
this.collector = outputCollector; 
this.last = System.currentTimeMillis()/(1000* 60); 
H 
private long pv; 
private long last; 





@ Override 
public void execute (Tuple tuple) { 
try { 
String bid- tuple.getStringByField ("bid") ; 
if (StringUtils.isNotBlank (bid) ) { 
pvit; 


} 

if (System.currentTimeMillis ()/(1000* 60)!= last) { 
last = System.currentTimeMillis()/(1000* 60); 
HBaseDAO.put ("storm", Long.toString (last) , "info", "pv", Long.toString(pv)); 
pv= 0; 

Jelse { 
//do nothing 

} 

this.collector.ack (tuple) ; 

}catch (Exception e) { 

//e.printStackTrace () 7 

LOG.error (e.getMessage(),e) 7 

this.collector.fail (tuple); 


} 
@Override 
public void declareOutputFields (OutputFieldsDeclarer outputFieldsDeclarer) ( 
} 
| } 


" 4. HBase 操作 
1) HBaseDAO 


package com.storm.util; 
import org.apache.hadoop.hbase.client.* ; 
import org.apache.hadoop.hbase.filter.CompareFilter; 
import org.apache.hadoop.hbase.filter.Filter; 
import org.apache.hadoop.hbase.filter.RegexStringComparator; 
import org.apache.hadoop.hbase.filter.RowFilter; 
import org.apache.hadoop.hbase.util.Bytes; 
import org.slf4j.Logger; 
import org.s1f4j.LoggerFactory; 
import java.io.IOException; 
public class HBaseDAO ( 
private static Logger LOG- LoggerFactory.getLogger (HBaseDAO.class); 
private static HBaseUtils hBaseUtils- new HBaseUtils ("172.22.96.56", 2181, "/hbase") ; 
public static void put (String tablename, String row, String columnFamily, 
String column, String data) { 
HTable table = hBaseUtils.getTable (tablename); 
Put put = new Put (Bytes.toBytes (row)); 
put.addColumn (Bytes.toBytes (columnFamily), Bytes.toBytes (column), 
Bytes.toBytes (data) ) ; 
try { 





table.put (put) ; 
table.close(); 

) catch (IOException e) ( 
LOG.error (e.getMessage (),€) ; 


} 
public static Result get (String tablename, String row) throws Exception { 
HTable table = hBaseUtils.getTable (tablename) ; 
Get get = new Get (Bytes.toBytes (row)) 7 
Result result = table.get (get) ; 
table.close(); 
return result; 
} 
public static ResultScanner scan (String tablename) throws Exception { 
HTable table - hBaseUtils.getTable (tablename); 
Scan s = new Scan () 7 
ResultScanner rs = table.getScanner (s); 
return rs; 


) 


public static ResultScanner containKeys (String tablename, String rowkey) throws 


IOException, IllegalAccessException, InstantiationException ( 
HTable table = hBaseUtils.getTable (tablename); 
Scan scan- new Scan(); 
(rowkey)); 
Scan.setFilter (filter); 
return table.getScanner (scan) ; 


) 
2) HBaseUtils 


package com.storm.util; 
import org.apache.commons.lang.exception.ExceptionUtils; 
import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.hbase.HBaseConfiguration; 
import org.apache.hadoop.hbase.TableName; 
import org.apache.hadoop.hbase.client.* ; 
import org.slf4j.Logger; 
import org.slf4j.LoggerFactory; 
import java.io.IOException; 
public class HBaseUtils ( 
private Logger LOG = LoggerFactory.getLogger (HBaseUtils.class); 
private Configuration configuration; 
private Connection connection; 
public HBaseUtils() { 
this.configuration = HBaseConfiguration.create () ; 
} 
public HBaseUtils (String zkServers, int zkPort, String zkRoot) { 
this.configuration = HBaseConfiguration.create () ; 





this.configuration.set ("hbase.zookeeper.quorum", zkServers); 
this.configuration.set ("hbase.zookeeper.property.clientPort", zkPort + ""); 
this.configuration.set ("zookeeper.znode.parent", zkRoot); 


} 
public synchronized Connection getHConnection () 
throws IOException { 
if (connection -- null) ( 
connection - ConnectionFactory.createConnection (configuration); 
Nn connection = HConnectionManager.createConnection (configuration); 
} 
return connection; 
} 
public HTable getTable (String tableName) { 
HTable table = null; 
try { 
if (null == connection) { 
connection = getHConnection () ; 
} 
table = (HTable) connection.getTable (TableName.valueOf (tableName) ) ; 
} catch (IOException e) { 
LOG.error (ExceptionUtils.getFullStackTrace (e) ) ; 
} 
if (null == table) ( 
throw new RuntimeException (" can not connect HBase: exception accurs when 
| getting table from hconnection " + tableName); 
$ } 
return table; 


} 


5. 项 目 配置 文件 pom. xml 


<?xml version- "1.0" encoding- "UTF- 8"? > 
<project xmlns- "http: //maven.apache .org/POM/4 .0. 0" 
xmins:xsi- "http: //www.w3.0rg/2001/XMLSchema- instance" 
xsi:schemaLocation- "http: //maven.apache.org/POM/4.0.0 
http://maven.apache .org/xsd/maven- 4.0.0.xsd"> 
<modelVersion> 4.0.0« /modelVersion> 
<groupId> jd< /groupId> 
<artifactId> bdp< /artifactId> 
«version» 1.0- SNAPSHOT« /version> 
<!-- 打 全 包 捅 件 --> 
<build> 
«plugins» 
«plugin» 
<artifactId> maven- assembly- plugin« /artifactId> 
«configuration» 
<appendAssemblyId> false< /appendAssemblyId> 
<descriptorRefs> 
<descriptorRef> jar- with- dependencies< /descriptorRef> 
« /descriptorRefs» 





«archive» 
«manifest» 
<mainClass> </mainClass> 
</manifest> 
</archive> 
</configuration> 
<executions> 
<execution> 
«id» make-assembly< /id» 
«phase» package< /phase> 
<goals> 
<goal> assembly< /goal> 
</goals> 
« /execution» 
< /executions» 
</plugin> 
<plugin> 
<groupId> org.apache .maven.plugins< /groupId> 
<artifactId> maven- compiler- plugin« /artifactId> 
«configuration» 
«source» 1.7« /source> 
«target» 1.7« /target> 
</configuration> 
</plugin> 
« /plugins» 
< /build» 
< ! - - https://mvnrepository.com/artifact/org.apache.storm/storm- core-- » 
« dependencies» ι 
« dependency» 
<groupId> jdk.tools< /groupId> 
<artifactId> jdk.tools< /artifactId> 
<version> 1.7< /version> 
«scope» system< /scope> 
< systemPath» $ {JAVA_HOME}/lib/tools.jar< /systemPath> 
</dependency> 
<dependency> 
<groupId> org.apache.storm« /groupId> 
<artifactId> storm-core< /artifactId> 
«version» 0.9.4« /version> 
«scope» provided< /scope> 
</dependency> 
< !-—https://mvnrepository.com/artifact/org.apache.storm/stom kafka--> 
<dependency> 
<groupId> org.apache.storm« /groupId> 
<artifactId> storm- kafka< /artifactId> 
«version» 0.9.4« /version> 
< /dependency» 
< !—- JSON 数据 格式 --> 
<dependency> 
<groupId> com.alibaba< /groupId> 
<artifactId> fastjson< /artifactid> 





«version» 1.2.7« /version» 
</dependency> 
<dependency> 
<groupId> org.apache.kafka< /groupId> 
<artifactId> kafka 2.9.2« /artifactld» 
«version» 0.8.1.1« /version» 


<exclusions> 
<exclusion> 
<groupId> org.apache.zookeeper< /groupId> 
«artifactId» zookeeper< /artifactId> 
</exclusion> 
<exclusion> 
<groupId> 10g4j« /groupId> 
<artifactId> log4j« /artifactId> 
</exclusion> 
</exclusions> 
</dependency> 
< !--https://mvnrepository.com/artifact/org.apache.hbase/hbase- client--> 
<dependency> 
<groupId> org.apache.hbase< /groupId> 
<artifactId> hbase- client« /artifactId> 
<version> 1.1.2< /version> 
<exclusions> 
<exclusion> 
<groupId> org.apache.zookeeper< /groupId> 
<artifactId> zookeeper< /artifactId> 
< /exclusion> 
<exclusion> 
<groupId> 10g4j« /groupId> 
<artifactId> log4j« /artifactId> 
< /exclusion> 
<exclusion> 
<groupId> org.slf4j« /groupId> 
<artifactId> slf4j- 1og4j12< /artifactId> 
< /exclusion> 
</exclusions> 
</dependency> 
< /dependencies> 
</project> 


14.1.5 运行 topology 


采用 Storm jar 的 方式 将 topology 提交 到 集群 中 。 


storm jar ./wkj/bdp.jar 
com.storm.PVTopology pv- topology 


输出 结果 如 图 14-3 所 示 。 


COLUMN+CELL 
column-pv,last-THU DEC 13 10:21, pv=10235 
column=pv, last=THU DEC 13 10:22, pv=9567 


column=pv,last=THU DEC 13 10:23,pv=9786 
column-pv,last-THU DEC 13 10:24, pv=9795 
column=pv,last=THU DEC 13 





图 14-3 输出 结果 


142 网 站 用 户 访 问 量 计算 


14.2.1 背景 介绍 


本 节 主 要 是 在 14. 1 节 的 基础 上 所 做 的 改进 ,让 最 终结 果 中 每 个 用 户 只 输出 一 次 用 户 访 
问 记录 ,从 而 得 到 用 户 的 访问 量 。 


14.2.2 Storm 代码 实现 


1. 构建 topology 


package com.storm; 

import backtype.storm.Config; 

import backtype.storm.LocalCluster; 

import backtype.storm.StormSubmitter; 

import backtype.storm.generated.AlreadyAliveException; 

import backtype.storm.generated.InvalidTopologyException; 

import backtype.storm.topology.TopologyBuilder; 

import backtype.storm.utils.Utils; 

import org.slf4j.Logger; 

import org.s1f4j.LoggerFactory; 

import storm.kafka.KafkaSpout; 

import storm.kafka.SpoutConfig; 

import storm.kafka.ZkHosts; 

import java.util.HashMap; 

import java.util.Map; 

import java.util.UUID; 

/** 

* Created by konglu on 2016/7/29. 

sf 

public class UVTopology { 
private static String SPOUT ID = KafkaSpout.class.getSimpleName () ; 
private static String PVBOLT ID = PVBolt.class.getSimpleName () ; 
private static String UVBOLT ID = UVBolt.class.getSimpleName () ; 
private static String UVTOPOLOGY ID = UVTopology.class.getSimpleName () ; 
private static Logger LOG = LoggerFactory.getLogger (UVTopology.class); 
private static String UVSUMBOLT ID = UVSumBolt.class.getSimpleName () ; 
public static void main (String ... args) { 

TopologyBuilder builder = new TopologyBuilder(); 
String brokerZkStr = "172.19.176.49:2181,172.19.176.50:2181,172.19.176.51:2181, 172. 





19.176.52:2181,172.19.176.53:2181/kafka"; 
String zkRoot — "/kafka"; 
ZkHosts zkHosts — new ZkHosts (brokerZkStr); 
String topic - "flow normalized json"; 
String id = UUID.randomUUID() .toString(); 
SpoutConfig spoutconf - new SpoutConfig(zkHosts, topic, zkRoot, id); 
builder.setSpout (SPOUT ID, new KafkaSpout (spoutconf), 1); 
builder.setBolt(PVBOLT ID,new PVBolt(),16).shuffleGrouping (SPOUT ID); 
builder.setBolt (UVBOLT_ID,new UVBolt(),1).shuffleGrouping(PVBOLT ID); 
//builder.setBolt (UVSUMBOLT ID,new UVSumBolt () , 1) .shuffleGrouping (UVBOLT ID); 
Config conf = new Config(); 
conf.setMaxSpoutPending (1000) ; 
conf.setStatsSampleRate (1.0); 
conf.setNumAckers (3) ; 
if(args!= null && args.length> 0) { 
try { 
StormSubmitter .submitTopology (UVTOPOLOGY_ID, conf, builder.createTopology 
0); 
} catch (AlreadyAliveException e) { 
LOG.error (e.getMessage (),e); 
} catch (InvalidTopologyException e) { 
LOG.error (e.getMessage () ,e)7 
} 
Jelse { 
LocalCluster cluster- new LocalCluster(); 
cluster.submitTopology (UVTOPOLOGY ID, conf, builder.createTopology ()); 
Utils.sleep (10000); 
cluster.killTopology (UVTOPOLOGY ID); 
cluster.shutdown(); 


) 
2. 393 Bolt 


package com.storm; 

import backtype.storm.task.OutputCollector; 
import backtype.storm.task.TopologyContext; 
import backtype.storm.topology.OutputFieldsDeclarer; 
import backtype.storm.topology.base.BaseRichBolt; 
import backtype.storm.tuple.Fields; 

import backtype.storm.tuple.Tuple; 

import backtype.storm.tuple.Values; 

import backtype.storm.utils.RotatingMap; 

import com.storm.util.HBaseDAO; 

import org.apache.commons.lang.StringUtils; 
import org.apache.hadoop.hbase.Cell; 

import org.apache.hadoop.hbase.client.Result; 
import org.apache.hadoop.hbase.util.Bytes; 

import org.slf4j.Logger; 

import org.s1f4j.LoggerFactory; 

import java.util.HashMap; 





import java.util.Map; 
public class UVBolt extends BaseRichBolt { 
private static final long serialVersionUID = 11; 
private OutputCollector collector — null; 
private TopologyContext context — null; 
private static Logger LOG - LoggerFactory.getLogger (UVBolt.class); 
private long last = System.currentTimeMillis()/(1000* 60); 
private long uv = 0; 
private Map< String, Long> map = new HashMap< String, Long» (); 
private Map< String, Long> map tmp = new HashMap< String, Long» (); 
private byte ] cf = Bytes.toBytes ("info"); 
private byte ] col = Bytes.toBytes ("time"); 
private RotatingMap< String, Long» rmap; 
@ Override 
public void prepare (Map stormConf, TopologyContext context, OutputCollector collector) { 
this.collector = collector; 
this.collector = collector; 
this.rmap = new RotatingMap< String, Long» (2); 
} 
@ Override 
public void execute (Tuple input) { 
String bid = input.getStringByField ("bid"); 
long ts = input.getLongByField ("ts"); 
if (StringUtils.isNotBlank (bid) ) { 
if (map.containsKey (bid)) { 
long tmp = map.get (bid) / (1000. 60); 
if (tmp == last) { 
//do nothing 
Jeise ( 
uv+ ἘΣ 


map.put (bid, ts) ; 
} else if (map_tmp.containsKey (bid) ) { 
long tmp = map_tmp.get (bid) / (1000: 60); 
if (tmp == last) { 
//do nothing 
jelse { 
uvtt; 
} 
map tmp.put (bid,ts); 
Jelse ( 
map.put (bid,ts); 
try { 
Result rs = HBaseDAO.get ("storm bid",bid); 
if (rs == null) { 
uvtt; 
Jelse ( 
Cell cell = rs.getColumLatestCell (cf, col); 
if (cell == null)( 
uvtt; 





Jelse { 
byte] time bytes = cell.getValueArray(); 
long time = Bytes.toLong(time bytes)/(1000* 60); 
if (time == last)( 
//do nothing 
Jelse ( 
uvtt; 


} 

} catch (Exception e) { 
//e.printStackTrace () 7 
LOG.error (e.getMessage () ,e) ; 
this.collector. fail (input); 


} 
HBaseDAO.put ("storm bid", bid, "info", "time", Long.toString(ts)); 
if (map.size()>100000) { 
Map tmp = map_tmp; 
map_tmp = map; 
tmp.clear(); 
map = tmp; 
} 
this.collector.emit (new Values (uv) ) ; 
} 
this.collector.ack (input) ; 
if (! (System.currentTimeMillis()/(1000* 60) == last)) { 
last = System.currentTimeMillis () / (1000* 60); 
HBaseDAO.put ("storm", Long. toString (last) ,"info", "uv", Long. toString (uv) ) 
uv = 0; 


} 
@override 
public void declareOutputFields (OutputFieldsDeclarer declarer) { 
} 
} 


3. 构建 Spout 


package com. storm; 
import backtype.storm.topology.BasicOutputCollector; 
import backtype.storm.topology.OutputFieldsDeclarer; 
import backtype.storm.topology.base.BaseBasicBolt; 
import backtype.storm.tuple.Tuple; 
import com.storm.util.HBaseDAO; 
public class UVSumBolt extends BaseBasicBolt { 
private long last- System.currentTimeMillis ()/(1000* 60); 
private long uv-0; 
@ Override 
public void execute (Tuple input, BasicOutputCollector collector) { 
uv+= (Long) input .getValueByField ("uv"); 
if(! (System.currentTimeMillis ()/(1000* 60)==last)) { 


last- System.currentTimeMillis () / (1000* 60) ; 
HBaseDAO.put ("storm", Long.toString (last), "info", "uv", Long.toString (uv) ); 
uv=0; 


} 
@ override 
public void declareOutputFields (OutputFieldsDeclarer declarer) ( 


) 


14.2.3 ”运行 topology 
采用 Storm jar 的 方式 将 topology 提交 到 集群 中 。 


storm jar ./wkj/bdp.jar 
com.storm.UVTopology uv- topology 


输出 结果 如 图 14-4 所 示 。 


COLUMN+CELL 

column=uv, last=THU 21, uv=2347 
Vv, last=THU 
V, last=THU 


Vv, last=THU 
column=uv, last=THU :25,uv=2564 
column=uv, last=THU :26,uv=2622 





图 14-4 输出 结果 


本 章 小 结 


本 章 通 过 统计 网 站 的 pv 和 uv 两 个 Storm 工程 实例 ,加 深 对 Storm 的 理解 。 在 了 解 
Storm 工程 的 “庐山 真面目 ”后 ,可 以 尝试 更 多 的 Storm 项 目 构建 。 


习 Β 


(1) 按照 本 章 介绍 ,尝试 在 本 机 上 实现 网 站 pv 的 项 目 构建 。 
(2) 按照 本 章 介 绍 ,尝试 在 本 机 上 实现 网 站 uv 的 项 目 构建 。 
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